您现在的位置是:首页 >财经 > 2021-04-29 22:02:14 来源:
麻省理工学院的PixelPlayer可以使用AI隔离乐器的声音
均衡器是用你喜爱的曲调提升低音的一种方法,但麻省理工学院计算机科学与人工智能实验室(CSAIL)的研究人员有更好的解决方案。他们的系统--PixelPlayer--使用人工智能来区分和隔离乐器的声音,并使它们更响亮或更柔和。
经过全面训练的PixelPlayer系统,以视频作为输入,分离伴随音频并识别声音源,然后计算图像中每个像素的音量并“空间定位”它 - 即识别剪辑中的区域产生类似的声波。
详情见“ 像素之声 ”,即将于9月在德国慕尼黑举行的欧洲计算机视觉会议上接受的一篇新论文。
“我们期待一个最好的情况,我们可以识别出哪种乐器会发出哪种声音,”CSAIL的博士生和该论文的共同作者Hang Zhao说。“我们很惊讶我们实际上可以在像素级别空间定位仪器。能够做到这一点开辟了许多可能性,例如只需点击一下视频即可编辑各个乐器的音轨音频。
PixelPlayer的核心是一个在MUSIC(仪器组合的多模态源)上训练的神经网络,这是一个由YouTube提供的714个未经修改的,未标记的视频数据集。(500个视频 - 60个小时的价值 - 被用于训练,其余用于验证和测试。)在训练过程中,研究人员用演奏声学吉他,大提琴,单簧管,长笛,和其他工具。
它只是PixelPlayer多管机器学习框架的一部分。在经过训练的视频分析算法从剪辑的帧中提取视觉特征之后,第二个神经网络 - 音频分析网络 - 将声音分成组件并从中提取特征。最后,音频合成器网络使用来自两个网络的输出来将特定像素与声波相关联。
PixelPlayer完全是自我监督的,这意味着它不需要人类注释数据,并且能够识别超过20种乐器的声音。(赵说,一个更大的数据集将允许它识别更多,但它将难以处理仪器的子类之间的微妙差异。)它还可以识别音乐的元素,如小提琴的谐波频率。
研究人员认为PixelPlayer可以帮助进行声音编辑,或者用于机器人以更好地理解动物,车辆和其他物体所产生的环境声音。
他们写道:“我们希望我们的工作可以开辟新的研究途径,通过视觉和听觉信号来理解声源分离的问题。