您现在的位置是:首页 >要闻 > 2020-12-10 09:21:20 来源:

新研究测试机器学习以检测世界语言中的借用单词

导读 秘鲁天主教大学和马克斯·普朗克人类历史科学研究所的研究人员研究了机器学习算法使用一种语言中的单词列表来识别词汇借用的能力。发表在《

秘鲁天主教大学和马克斯·普朗克人类历史科学研究所的研究人员研究了机器学习算法使用一种语言中的单词列表来识别词汇借用的能力。发表在《PLOS ONE》杂志上的结果表明,仅当前的机器学习方法不足以进行借位检测,这证明需要额外的数据和专家知识来应对历史语言学最紧迫的挑战之一。

词汇借用或单词从一种语言直接转移到另一种语言已经引起了几千年的学者的兴趣,这在柏拉图的Kratylos对话中得到了证明,苏格拉底在对话中讨论了借用单词对词源学研究带来的挑战。在历史语言学中,词汇借用可帮助研究人员追踪现代语言的发展,并指出不同语言群体之间的文化联系(无论是近期的还是古代的)。但是,用于识别借用单词的技术却难以形式化,要求研究人员依赖各种代理信息以及多种语言的比较。

主持这项研究的约翰·马蒂斯·李斯特说:“词汇借用的自动检测仍然是我们在计算历史语言学中面临的最困难的任务之一。”

在当前的研究中,来自PUCP和MPI-SHH的研究人员采用了不同的机器学习技术来训练语言模型,这些模型模仿了语言学家在仅考虑一种语言提供的证据时识别借用的方式:声音或声音的组合方式当将它们与同一种语言的其他单词进行比较时,形成单词是非典型的,这通常暗示了最近的借用。然后将模型应用于世界贷款数据库的修改版本,该数据库是世界各地不同语言家族的40种语言样本的借入信息目录,目的是查看给定语言中的单词将被分类为:是否借用了不同的技术。

在许多情况下,结果令人不满意,这表明借词检测对于最常用的机器学习方法来说太困难了。但是,在特定情况下,例如在外来词比例很高的列表中或外来词主要来自单一捐助者语言的语言中,团队的词汇语言模型显示出一定的希望。