您现在的位置是：首页 >动态 > 2021-04-09 08:58:45 来源：

亚马逊科学家解释了Alexa的耳语模式是如何工作

导读上周在亚马逊举行的一次活动中，亚马逊推出了一系列功能，这些功能将通过其Alexa语音平台推向新的和现有的智能扬声器。其中一个是低语模式

上周在亚马逊举行的一次活动中，亚马逊推出了一系列功能，这些功能将通过其Alexa语音平台推向新的和现有的智能扬声器。其中一个是“低语模式”，这使得Alexa能够通过窃窃私语来回应低声说话。在今天发表的博客文章中，亚马逊Alexa演讲组的演讲科学家Zeynab Raeesy透露了该功能的人工智能(AI)基础。

亚马逊科学家解释了Alexa的耳语模式是如何工作

大部分工作都在一篇论文(“基于LSTM的耳语检测”)中详细介绍，该论文将于12月在IEEE口语技术研讨会上发表。

“如果你在一个孩子刚刚入睡的房间里，而其他人走进来，你可能会开始低声说话，表明你正试图让房间保持安静。另一个人也可能开始窃窃私语，“Raeesy写道。“我们希望Alexa以这种自然，直观的方式对会话线索做出反应。”

Raeesy解释说，使低语言难以解释的原因在于它主要是清音 - 也就是说，它不涉及声带的振动。与普通语音相比，它在低频带中往往具有更少的能量。

她和同事研究了两种不同神经网络的使用 - 数学函数层在人类大脑的神经元之后松散地建模 - 以区分正常和低声的单词。

两个神经网络在架构上存在差异 - 一个是多层感知器(MLP)，第二个是长期短期记忆(LSTM)网络，它按顺序处理输入 - 但是在相同的数据上进行训练。所述数据包括(1)对数滤波器组能量，或记录不同频率范围内的信号能量的语音信号的表示，以及(2)“利用”低声和正常语音之间的信号差异的一组特征。 “。

在测试中，他们发现LSTM通常比MLP表现更好，具有许多优点。正如Raeesy所解释的那样，Alexa的语音识别引擎的其他组件完全依赖于日志过滤器 - 银行能量，并且为不同的组件提供相同的输入数据使整个系统更加紧凑。

然而，这并非一帆风顺 - 至少在最初阶段。因为Alexa通过短暂的沉默(一种称为“结束指向”的技术)识别命令的结束或回复，LSTM的信心倾向于朝着话语的尾端下降。为了解决这个问题，研究人员对整个话语的LSTM输出进行了平均分析。最后，丢弃最后1.25秒的语音数据对于保持性能至关重要。

免责声明：本文由用户上传，如有侵权请联系删除！

标签：

上一篇:谷歌地图的群组规划功能适用于Android和iOS

下一篇:如何跨越障碍并实施成功的人工智能战略

猜你喜欢

马龙个人资料介绍（马龙个人简介是什么）

贺州有什么特产（贺州的特产有哪些）

双拼和全拼的区别（两者有什么不同）

ted演讲什么意思（什么是ted演讲）

光阴似箭日月如梭是什么意思（光阴似箭日月如梭的意思）

保险丝的作用是什么（保险丝的作用）

cf怎么瞬狙（穿越火线狙击手速狙方法分享）

怎样制作ppt课件（制作ppt课件的方法）

三苏是指哪三个人（三苏分别指的是谁呢）

其一犬坐于前的其意思（出自何处）

维纳斯是罗马神话中的什么神（维纳斯内容介绍）

以马内利什么意思啊（以马内利意思解析）

做包子的方法与步骤（包子的做法）

当药的功效与作用（当药介绍）

沃尔玛简介（沃尔玛介绍）

fun的用法（fun的用法总结）

最新文章

马龙个人资料介绍（马龙个人简介是什么）

建筑安装企业工资审计（关于建筑安装企业工资审计介绍）

崇明区税务局离退休干部税法宣传志愿服务队（关于崇明区税务局离退休干部税法宣传志愿服务队简介）

排水系统UPVC套筒直埋法施工工法（关于排水系统UPVC套筒直埋法施工工法简介）

怎样当篮球裁判员（关于怎样当篮球裁判员介绍）

定坊社区（关于定坊社区介绍）

156是联通还是移动（156是联通号段）

定址（关于定址介绍）

建筑安装企业审计（关于建筑安装企业审计介绍）

崇明区法暖夕阳志愿服务队（关于崇明区法暖夕阳志愿服务队简介）

排水系数（关于排水系数简介）

怎样当新闻记者（关于怎样当新闻记者介绍）

建筑安装企业劳动定额分析（关于建筑安装企业劳动定额分析介绍）

排水管道钢内衬局部修复结构（关于排水管道钢内衬局部修复结构简介）

崇明区水务局离退休干部志愿服务队（关于崇明区水务局离退休干部志愿服务队简介）

怎样当幼儿园教养员（关于怎样当幼儿园教养员介绍）

点击排行

热门推荐

随机推荐