您现在的位置是:首页 >综合 > 2021-04-30 23:20:38 来源:
研究结果在AI风格传输数据集中具有无与伦比的质量
为了寻找改进计算机文本翻译的灵感,达特茅斯学院的研究人员转向圣经寻求指导。结果是在各种版本的神圣文本上训练的算法可以将书面作品转换成针对不同观众的不同风格。
可以广泛使用互联网工具来翻译英语和西班牙语等语言。创建样式转换器 - 使文本保持相同语言但转换样式的工具 - 出现的速度要慢得多。在某种程度上,由于难以获得所需的大量数据,开发译员的努力受到了阻碍。这是研究小组转向圣经的地方。
除了成为全球许多人的精神指导之外,达特茅斯领导的团队还在圣经中看到了“一个大型的,以前尚未开发的对齐平行文本数据集”。除了提供无限的灵感之外,圣经的每个版本都包含超过31,000节经文,研究人员用这些经文为机器学习训练集生成超过150万个源和目标经文的独特配对。
根据发表在皇家学会开放科学杂志上的研究,这不是第一个为风格翻译创建的并行数据集。但它是第一个使用圣经的人。过去使用的其他文本,从莎士比亚到维基百科条目,提供的数据集要么小得多,要么不适合学习风格翻译的任务。
“英语圣经有许多不同的书面风格,使其成为风格翻译的完美源文本,”达特茅斯博士生,该研究论文的主要作者基思卡尔森说。
作为研究团队的一个额外好处,圣经已经被书籍,章节和诗歌数字的一致使用完全编入索引。跨版本的文本的可预测组织消除了可能由匹配相同文本的不同版本的自动方法引起的对齐错误的风险。
“圣经是一个'神圣的'数据集,可用于研究这项任务,”达特茅斯计算机科学教授丹尼尔洛克莫尔说,他是这项研究的作者。“几个世纪以来,人类一直在执行组织圣经文本的任务,因此我们不必将信仰置于不太可靠的对齐算法中。”
为了定义研究的“风格”,研究人员参考句子长度,被动或主动语音的使用,以及可能导致文本具有不同程度的简单性或形式的单词选择。根据这项研究:“不同的措辞可能会传达不同程度的礼貌或对读者的熟悉程度,显示关于作者的不同文化信息,对某些人群更容易理解。”
该团队使用了34种风格独特的圣经版本,其语言复杂程度从“詹姆斯国王版”到“基础英语圣经”。这些文本被输入两种算法 - 一种称为“摩西”的统计机器翻译系统和一种常用于机器翻译的神经网络框架“Seq2Seq”。
虽然使用了不同版本的圣经来训练计算机代码,但最终可以开发出能够为不同受众翻译任何书面文本风格的系统。例如,风格翻译可以从“Moby Dick”中选择英语,并将其翻译成适合年轻读者,非英语母语人士或各种受众中的任何一种的不同版本。
“文本简化只是一种特定类型的风格转移。更广泛地说,我们的系统旨在生成与原文具有相同含义的文本,但使用不同的单词,”卡尔森说。
达特茅斯学院在计算机科学领域有着悠久的创新历史。“人工智能”一词是在1956年创建AI研究学科的会议期间在达特茅斯创造的。其他进步包括BASIC的设计 - 第一个通用和可访问的编程语言 - 以及为现代操作系统做出贡献的达特茅斯时间共享系统。