您现在的位置是:首页 >动态 > 2021-04-09 08:58:45 来源:

亚马逊科学家解释了Alexa的耳语模式是如何工作

导读 上周在亚马逊举行的一次活动中,亚马逊推出了一系列功能,这些功能将通过其Alexa语音平台推向新的和现有的智能扬声器。其中一个是低语模式

上周在亚马逊举行的一次活动中,亚马逊推出了一系列功能,这些功能将通过其Alexa语音平台推向新的和现有的智能扬声器。其中一个是“低语模式”,这使得Alexa能够通过窃窃私语来回应低声说话。在今天发表的博客文章中,亚马逊Alexa演讲组的演讲科学家Zeynab Raeesy透露了该功能的人工智能(AI)基础。

亚马逊科学家解释了Alexa的耳语模式是如何工作

大部分工作都在一篇论文(“基于LSTM的耳语检测”)中详细介绍,该论文将于12月在IEEE口语技术研讨会上发表。

“如果你在一个孩子刚刚入睡的房间里,而其他人走进来,你可能会开始低声说话,表明你正试图让房间保持安静。另一个人也可能开始窃窃私语,“Raeesy写道。“我们希望Alexa以这种自然,直观的方式对会话线索做出反应。”

Raeesy解释说,使低语言难以解释的原因在于它主要是清音 - 也就是说,它不涉及声带的振动。与普通语音相比,它在低频带中往往具有更少的能量。

她和同事研究了两种不同神经网络的使用 - 数学函数层在人类大脑的神经元之后松散地建模 - 以区分正常和低声的单词。

两个神经网络在架构上存在差异 - 一个是 多层感知器(MLP),第二个是长期短期记忆(LSTM)网络,它按顺序处理输入 - 但是在相同的数据上进行训练。所述数据包括(1)对数滤波器组能量,或记录不同频率范围内的信号能量的语音信号的表示,以及(2)“利用”低声和正常语音之间的信号差异的一组特征。 “。

在测试中,他们发现LSTM通常比MLP表现更好,具有许多优点。正如Raeesy所解释的那样,Alexa的语音识别引擎的其他组件完全依赖于日志过滤器 - 银行能量,并且为不同的组件提供相同的输入数据使整个系统更加紧凑。

然而,这并非一帆风顺 - 至少在最初阶段。因为Alexa通过短暂的沉默(一种称为“结束指向”的技术)识别命令的结束或回复,LSTM的信心倾向于朝着话语的尾端下降。为了解决这个问题,研究人员对整个话语的LSTM输出进行了平均分析。最后,丢弃最后1.25秒的语音数据对于保持性能至关重要。