您现在的位置是:首页 >人工智能 > 2022-01-29 14:59:13 来源:
一个可以创建逼真的说话人脸动画的模型
近年来,计算机生成的动物和人类动画变得越来越详细和逼真。尽管如此,在角色说话时制作令人信服的面部动画仍然是一项关键挑战,因为它通常需要成功组合一系列不同的音频和视频元素。
TCS Research 的一个计算机科学家团队最近创建了一个新模型,该模型可以生成高度逼真的说话面部动画,该动画将音频记录与角色的头部动作相结合。该模型在 ICVGIP 2021(第十二届计算机视觉、图形和图像处理会议)上发表的一篇论文中介绍,可用于创建更具说服力的虚拟化身、数字助理和动画电影。
“为了获得愉快的观看体验,对真实感的感知至关重要,尽管最近的研究取得了进展,但生成逼真的会说话的面孔仍然是一个具有挑战性的研究问题,”进行这项研究的研究人员之一 Brojeshwar Bhowmick 告诉技术探索。“除了准确的嘴唇同步,逼真的说话人脸动画还需要其他真实属性,例如自然眨眼、头部运动和保留任意目标人脸的身份信息。”
大多数现有的用于生成面部动画的语音驱动方法都专注于确保嘴唇运动和录制的语音之间的良好同步,保留角色的身份并确保它偶尔眨眼。其中一些方法还试图产生令人信服的头部运动,主要是通过在一个简短的训练视频中模仿人类说话者的动作。
“这些方法从驾驶视频中得出头部的运动,这可能与当前的语音内容不相关,因此对于长演讲的动画来说似乎不切实际,”Bhowmick 说。“一般来说,头部运动很大程度上取决于当前时间窗口的语音韵律信息。”
过去的研究发现,人类说话者的头部运动与其声音的音高和幅度之间存在很强的相关性。这些发现启发了 Bhowmick 和他的同事们创造了一种新方法,该方法可以为面部动画生成头部动作,以反映角色的声音和他/她所说的内容。
在他们之前的一篇论文中,研究人员提出了一种基于生成对抗网络 (GAN) 的架构,该架构可以生成令人信服的面部说话动画。虽然这种技术很有前途,但它只能产生扬声器头部不动的动画。
“我们现在开发了一个完整的语音驱动的逼真面部动画管道,通过设计一种分层方法来解开运动和纹理学习,生成具有准确口型同步、自然眨眼和逼真头部运动的说话面部视频,”Bhowmick 说。“我们在面部标志上学习语音诱导运动,并使用标志来生成动画视频帧的纹理。”
Bhowmick 和他的同事创建的新生成模型可以有效地为动画说话人脸生成语音驱动和逼真的头部运动,这与说话者的声音特征和他/她所说的内容密切相关。就像他们过去创建的技术一样,这种新模型基于 GAN,这是一类机器学习算法,已被发现在生成人工内容方面非常有前途。
该模型可以识别说话者正在谈论的内容以及他/她在特定时间窗口内的语调。随后,它使用这些信息来产生匹配和相关的头部运动。
“我们的方法与最先进的方法根本不同,这些方法专注于从目标对象的示例驾驶视频中生成特定于个人的谈话风格,”Bhowmick 说。“鉴于音频和头部运动之间的关系不是唯一的,我们的注意力机制试图了解局部音频特征对局部头部运动的重要性,从而随着时间的推移保持预测平滑,而在测试时不需要任何输入驾驶视频。我们还使用元学习来生成纹理,因为它有助于在测试时使用很少的图像快速适应未知的面孔。”
Bhowmick 和他的同事在一系列基准数据集上评估了他们的模型,并将其性能与过去开发的最先进技术的性能进行了比较。他们发现它可以生成非常令人信服的动画,具有出色的嘴唇同步、自然的眨眼和语音连贯的头部运动。
Bhowmick 补充说:“我们的工作朝着实现逼真的说话人脸动画迈进了一步,这些动画可以转化为多种现实世界的应用程序,例如数字助理、视频配音或远程呈现。” “在我们接下来的研究中,我们计划将逼真的面部表情和情绪与唇形同步、眨眼和语音连贯的头部运动相结合。”