您现在的位置是:首页 >要闻 > 2020-12-09 15:21:37 来源:

建议变得越来越快捷且相关性更高

导读 在线拥有数十亿本书,新闻报道和文档,因此,现在是阅读最佳时机的最佳时机-如果您有时间来筛选所有选项。麻省理工学院的助理教授贾斯汀·

在线拥有数十亿本书,新闻报道和文档,因此,现在是阅读最佳时机的最佳时机-如果您有时间来筛选所有选项。麻省理工学院的助理教授贾斯汀·所罗门说:“互联网上有很多文字。” “任何有助于切穿所有材料的东西都是非常有用的。”

所罗门公司与麻省理工学院的IBM Watson AI实验室及其位于麻省理工学院的几何数据处理小组合作,最近在神经信息处理系统大会(NeurIPS)上提出了一种用于切入大量文本的新技术。他们的方法结合了三种流行的文本分析工具-主题建模,单词嵌入和最佳传输-可以提供比流行的用于对文档进行分类的基准上的竞争方法更好,更快的结果。

如果算法知道您过去喜欢什么,它可以扫描数百万种可能性来寻找类似的东西。随着自然语言处理技术的改进,那些“您可能也喜欢”的建议正在变得越来越快捷和相关。

在NeurIPS提出的方法中,一种算法会根据收藏集中的常用单词,将书籍的收藏汇总为主题。然后将每本书分为5至15个最重要的主题,并估算每个主题对本书的总体贡献。

为了比较书籍,研究人员使用了另外两种工具:单词嵌入(一种将单词转换为数字列表以反映其在常用用法中的相似性的技术)和最佳传输(一种用于计算移动物体或数据点的最有效方式的框架) -在多个目的地中。

单词嵌入使利用两次最佳传输成为可能:首先比较整个馆藏中的主题,然后在任意两本书中比较常见主题的重叠程度。

当扫描大量书籍和冗长的文档时,该技术特别有效。在这项研究中,研究人员提供了弗兰克·斯托克顿(Frank Stockton)的《大战辛迪加》的例子,这是一部19世纪的小说,预言了核武器的兴起。如果您正在寻找一本类似的书,则主题模型将有助于识别与其他书共享的主要主题,在本例中是航海,元素和武术。

但是,仅凭主题模型并不能证明托马斯·赫x黎(Thomas Huxley)在1863年的演讲“有机自然的过去条件”是很好的匹配。作家是查尔斯·达尔文(Charles Darwin)进化论的拥护者,他的演讲充斥着化石和沉积物,反映了关于地质学的新兴思想。当赫x黎演讲中的主题通过最佳传输方式与斯托克顿的小说相匹配时,就会出现一些贯穿各领域的主题:赫x黎的地理,动植物/动物主题和知识主题分别与斯托克顿的航海,元素和武术主题密切相关。

通过书籍的代表性主题而不是单个单词对书籍进行建模,可以进行高层比较。该研究的主要作者,IBM研究人员Mikhail Yurochkin说:“如果您要求某人比较两本书,他们会将每一本书分解为易于理解的概念,然后进行比较。”

研究表明,结果是更快,更准确的比较。研究人员在一秒钟内比较了古腾堡计划数据集中的1,720对书籍,这比第二好的方法快800倍。

与竞争对手的方法相比,该技术在准确地对文档进行排序方面也做得更好,例如,按作者对古腾堡数据集中的书籍进行分组,按部门在亚马逊上进行产品评论以及按体育进行BBC体育报道。在一系列可视化中,作者表明,他们的方法可以按类型整齐地对文档进行聚类。

除了快速,准确地对文档进行分类之外,该方法还提供了进入模型决策过程的窗口。通过出现的主题列表,用户可以查看模型为何推荐文档。