您现在的位置是:首页 >要闻 > 2020-12-19 08:32:20 来源:
再说一遍AI提供更清晰音频的最新词汇
导读 如果您今年在家时一直在听更多播客,则可能已经注意到虚拟对话增加的副作用:音频质量下降。通过电话或视频聊天进行的采访通常包括背景噪音
如果您今年在家时一直在听更多播客,则可能已经注意到虚拟对话增加的副作用:音频质量下降。通过电话或视频聊天进行的采访通常包括背景噪音,混响和失真。
现在,普林斯顿大学研究人员部分开发的新方法可以改善COVID时代及以后的聆听体验。使用称为深度学习的人工智能(AI)方法,该技术可以转换低质量的人类语音录音,从而接近录音室录制的声音的清晰度和清晰度。
虽然其他基于AI的用于改善语音记录的方法通常只解决音频质量的一个方面,例如滤除背景噪声或消除混响,但该方法更像是一种多合一的工具。最终,研究人员希望将其框架应用于完全自动化的实时语音增强。
计算机科学专业的研究生,论文的主要作者苏佳琪说:“以前的方法主要集中在提高语音的清晰度上,但是这些方法可以使聆听体验更平坦,因此所得到的质量对于聆听来说并不是那么好。描述了该方法,研究人员将其称为HiFi-GAN。
HiFi-GAN使用人工神经网络,这是深度学习的关键工具,可模仿生物神经元的互连架构。在该系统中,两个独立的网络竞争以提高音频质量。一个称为生成器的网络会产生语音的清理记录。另一个网络称为鉴别器,它分析记录以试图确定它们是真实的录音室质量的记录还是已被发生器清除的音频。这些生成对抗网络(GAN)之间的竞争提高了该方法产生清晰音频的能力。
产生者和歧视者网络参与了一场军备竞赛。合著者,计算机科学教授亚当·芬克尔斯坦(Adam Finkelstein)说:“生成器的工作是试图欺骗鉴别器。” “他们两个人一路攀升,在训练中每个人都变得越来越有效。完成这一过程后,您就可以扔掉鉴别器,而您所拥有的就是一个很棒的发生器。”