您现在的位置是:首页 >财经 > 2021-04-29 10:15:47 来源:

谷歌宣布推出26种WaveNet语音的云文本转语音

导读 如果您是Google Cloud客户,他们正在使用该公司的人工智能(AI)套件来进行文字转语音或语音转文本服务,那么这是一个好消息:新功能正朝着

如果您是Google Cloud客户,他们正在使用该公司的人工智能(AI)套件来进行文字转语音或语音转文本服务,那么这是一个好消息:新功能正朝着您的方向发展。Mountain View公司今天宣布了这些方面的重大更新,包括云文本到语音的普遍可用性,优化声音以便在不同设备上播放的新音频配置文件,多声道识别的增强功能等等。

谷歌宣布推出26种WaveNet语音的云文本转语音

首先在列表中:改进了Google的云文本到语音转换中的语音合成。从本周开始,它将提供多语言访问使用WaveNet生成的语音,WaveNet是Alphabet子公司DeepMind开发的机器学习技术。如果不深入杂草潜水,它会模仿语音中的压力和语调 - 语言学中称为韵律的声音 - 通过识别音调模式。除了比以前的型号产生更有说服力的语音片段之外,它还更高效 - 在Google的云TPU硬件上运行,WaveNet可以在50毫秒内生成一秒钟的样本。

Cloud Text-to-Speech现在提供17种新的WaveNet语音,并支持14种语言和变体。总共有56种声音:30种标准声音和26种WaveNet声音。(查看此网页以获取完整列表。)

扩展的WaveNet支持并不是Cloud Text-to-Speech客户唯一的新功能。以前在测试版中提供的音频配置文件今天正在广泛推出。

简而言之,音频配置文件可让您优化Cloud Text-to-Speech的API生成的语音,以便在不同类型的硬件上播放。例如,您可以为具有较小扬声器的可穿戴设备创建配置文件,或者专门为汽车扬声器和耳机创建配置文件。对于不支持特定频率的设备,它特别方便; Cloud Text-to-Speech可以自动将超出范围的音频移至听觉范围内,从而提高其清晰度。

“每个设备的物理特性以及它们所处的环境都会影响它们产生的频率范围和细节水平(例如,低音,高音和音量),”Google Cloud团队在博客文章中写道。“音频样本[由音频配置文件产生]实际上可能听起来比笔记本电脑扬声器上的原始样本更糟糕,但在电话线上听起来会更好。”

谷歌在7月份的谷歌云下一代开发者大会上宣布了一些新的云语音到文本功能,今天还有三个方面:多声道识别,语言自动检测和词级置信度。

通过自动表示每个单词的单独通道,多通道识别提供了一种简单的方法来转录多个音频通道。(Google指出,实现最佳转录质量通常需要使用多个频道。)对于未单独录制的音频样本,Cloud Speech-to-Text提供了日记功能,它使用机器学习通过识别扬声器标记每个单词数。谷歌表示,标签的准确性会随着时间的推移而提高。

这一切都很好,但如果你是一个拥有大量双语用户的开发人员呢?输入语言自动检测功能,可让您在查询云语音到文本时一次最多发送四个语言代码。API将自动确定所说的语言并返回成绩单,就像Google智能助理检测语言并以实物形式响应一样。(用户还可以选择手动选择语言。)

最后但并非最不重要的是,云语音到文本的前沿是词级置信度,它为开发人员提供了对谷歌语音识别引擎的细粒度控制。如果您这样选择,您可以将置信度分数与应用程序中的触发器相关联 - 例如,如果用户嘟m或说话过于轻柔,则会鼓励用户重复自我。