您现在的位置是:首页 >动态 > 2021-04-19 17:04:10 来源:
亚马逊团队利用数百万的Alexa互动来降低NLP错误率
开发一个能够理解自然语言的AI系统不仅耗时 - 而且非常昂贵。开发人员必须收集数千个语音样本并手动注释,这个过程通常需要数周时间。这就是为什么亚马逊的Alexa部门的研究人员追求转移学习,它利用神经网络 - 即模仿大脑中神经元的数学函数层 - 在先前注释的样本的大型数据集上训练,以便在具有稀疏数据的新域中进行训练。
在一篇新发表的论文(“智能代理中的语言无意识转移学习”)中,Alexa AI科学家描述了一种技术,可以利用亚马逊语音助手的数百万次无注释的交互,将错误减少8%%。他们将在今年晚些时候在夏威夷檀香山的人工智能促进协会(AAAI)展示他们的劳动成果。
这些相互作用用于训练AI系统以生成嵌入 - 单词的数字表示 - 使得具有相似功能的单词紧密地组合在一起。正如Alexa AI的应用科学家Anuj Goyal和该研究的共同作者所解释的那样,嵌入倾向于通过与其他词语“共现”来组合词 - 也就是说,它们以特定顺序彼此并排出现的频率。
“两个词共同出现的词越多,它们在嵌入空间中就越接近,”Goyal在一篇博客文章中写道。“嵌入因此捕获关于单词的语义相似性的信息,而不需要人类对训练数据的注释。”
嵌入基于一种称为嵌入式语言模型(ELMo)的方案,简化为使其足够有效地用于像Alexa这样的实时系统。独特的是,研究人员的变体是上下文敏感的 - 像“树皮”这样的词在“狗的树皮响亮”和“树的树皮很硬”中接受不同的嵌入。
在测试中,Alexa研究人员将ELMo及其优化版本(称为ELMo Light(ELMoL))与未使用嵌入方案的网络进行了比较。通过ELMo和ELMoL,他们对Alexa的2.5亿个未注释请求进行了嵌入层培训,并对现有的Alexa服务使用了另外400万个带注释的请求,以便在两个标准的自然语言处理任务上训练所有三个网络。具体而言,网络的任务是(1)意图分类,或确定Alexa客户想要执行的操作,以及(2)插槽标记,或确定应采取的操作实体。
一旦网络经过培训,就会对有限数据进行再培训,以执行新任务。使用ELMo嵌入的网络表现最佳,ELMoL网络紧随其后。(上述8%%的错误减少是通过100到500个训练样例实现的。)
“当最终再培训的数据量 - 转移学习步骤 - 很小时,这些改进是最大的,”Goyal写道。“但这恰恰是转学的最有用的背景。”
今天的新闻采用了一种技术,可以提高Alexa 一次性理解多步骤命令的能力,并且在亚马逊科学家描述一种可以将Alexa技能选择错误率降低40%%的AI驱动方法的几个月之后 。