您现在的位置是:首页 >互联网 > 2020-10-22 11:10:51 来源:
亚马逊的语音合成服务Polly获得了新闻播音员般的声音
亚马逊网络服务公司(Amazon Web Services Inc.)正在接管Google LLC的人声复制功能,今天为亚马逊波利(Amazon Polly)添加了两项新功能,这是一项基于云的服务,可将文本转换为逼真的语音,并用于创建可以通话的应用程序。
新功能的第一个功能称为“神经文本语音转换”,亚马逊表示,该功能通过增强合成语音的“自然”和“表现力”,在语音质量上实现“显着改善”。
关于神经文本语音转换的一大优点是,由于亚马逊去年在研究论文中提到的一种新的人工智能模型,它只需训练几个小时就可以学习新的口语风格。该模型通过将大量标准的中立语音与目标说话风格的几个小时的其他语音数据相结合而起作用。可以根据需要添加新的补充数据,以创建各种其他语音样式。
AWS传福音者朱利安·西蒙(Julien Simon)在博客中写道,使用Neural-Text-To-Speech的基本算法,亚马逊创建了第二个新功能,这是新闻播音员式的声音,使叙事声音在阅读新闻和类似内容时“更加逼真”。发布。
西蒙说:“语音质量当然很重要,但是要使合成语音更加逼真和引人入胜,还可以做更多的工作。” “风格呢?可以肯定的是,人耳可以分辨出新闻广播,体育广播,大学课程等等之间的区别。实际上,大多数人在正确的语境中采用正确的言语风格,这无疑有助于传达他们的信息。”
西蒙说,包括“环球邮报”,“大不列颠百科全书”和TIM Media在内的组织已经在使用Polly的新闻广播风格。此功能也已引入支持Amazon Alexa的设备,该设备用于叙述每日新闻简报和类似内容。
亚马逊表示,新闻播音员风格有两种英语配音,而“神经文本语音转换”有11种配音,其中包括三种英国英语配音和八种美国配音。所有声音均实时且以批处理模式工作,并且可以从亚马逊的美国东部(弗吉尼亚北部),美国西部(俄勒冈)和欧洲(爱尔兰)AWS地区访问。
Constellation Research Inc.分析师Holger Mueller表示,Amazon Polly的更新表明,所有主要的平台即服务公司总体上都对聊天机器人和对话界面越来越重视,因为这些平台正在迅速改变客户和员工的体验。
“凭借这些新功能,亚马逊专注于对话平台的三个重要部分之一,即语音输出,”穆勒说。“它在制作软件创建的语音方面取得了令人印象深刻的进步,但我们必须看到企业采用新功能的速度如何。”
Amazon Polly与 Google的Text-to-Speech服务相抗衡,后者由其WaveNet框架提供支持,目前提供21种语言的57种语音样式。微软公司还提供了一种类似的服务,称为Azure语音服务API,它提供75种标准语音和3种AI生成的语音。