您现在的位置是:首页 >综合 > 2020-12-11 09:05:14 来源:
Facebook研究人员使用数学来获得更好的翻译
机器翻译工具的设计人员仍然大多依靠字典来使外语易于理解。但是现在有了一种新方法:数字。Facebook研究人员说,将单词变成数字并利用语言之间的数学相似性是一个有前途的途径-即使“星际迷航”这样的通用传播者仍然遥遥无期。
强大的自动翻译是互联网巨头的首要任务。在世界范围内允许尽可能多的人交流不仅是无私的目标,而且还是一项好生意。
Facebook,Google和Microsoft以及俄罗斯的Yandex,中国的Baidu等都在不断寻求改善其翻译工具的方法。
Facebook在巴黎的一个研究实验室中聘用了人工智能专家。
欧洲社交网络基础AI研究的共同负责人Antoine Bordes说,Facebook目前使用多达200种语言。
当前,自动翻译基于具有两种语言的相同文本的大型数据库来工作。但是对于许多语言对来说,这样的平行文本还远远不够。
这就是为什么研究人员一直在寻找另一种方法的原因,例如Facebook开发的系统可以创建单词的数学表示形式。
每个单词在几百个维度的空间中成为一个“向量”。在该向量空间中,口语中具有紧密关联的单词也会发现自己彼此接近。
从巴斯克到亚马孙?
该系统之一的Guillaume Lample说:“例如,如果您在语义上使用'cat'和'dog'一词,它们是描述相似事物的词,因此它们在物理上会非常接近。”设计师。
“如果您使用马德里,伦敦,巴黎等欧洲首都之类的话,那就是同一主意。”
然后可以使用算法将这些语言映射相互链接-最初是粗略的,但最终会变得更加精致,直到可以匹配整个短语而没有太多错误为止。
兰普尔说,结果已经很有希望。
兰普尔说,对于英语-罗马尼亚语的一对语言来说,Facebook当前的机器翻译系统比词向量系统“相等或可能更差”。
他说,但对于Facebook-传统系统没有很多双语文本可供参考的英语-乌尔都语稀疏语言对来说,单词矢量系统已经很出色了。
但是该方法是否可以将巴斯克语翻译成亚马逊部落的语言?
兰普尔说,从理论上讲,是的,但实际上,要映射该语言,需要大量书面文本,这是亚马逊部落语言所缺乏的。
他说:“如果你只有成千上万个短语,那将是行不通的。你需要成千上万个短语。”