您现在的位置是:首页 >市场 > 2020-12-10 10:39:39 来源:
一种深度学习技术可为实时2D动画生成实时口型同步
实时二维动画是一种相当新颖而强大的交流形式,它使人类表演者可以实时控制卡通人物,同时与其他演员或观众互动和即兴表演。最近的例子包括史蒂芬·科尔伯特(Stephen Colbert)在《后期秀》中采访卡通客人,荷马在《辛普森一家》(The Simpsons)的一段节目中回答观众的现场电话提问,阿切尔(Archer)在ComicCon上与现场观众交谈,以及迪斯尼的《星际大战:邪恶力量》和My Little Pony通过YouTube或Facebook Live与粉丝主持实时聊天会话。
制作逼真的,有效的实时二维动画需要使用交互式系统,该系统可以自动将人类表演实时转换为动画。这些系统的一个关键方面是获得良好的口型同步,这实质上意味着动画人物的嘴巴在说话时会适当移动,模仿在表演者的嘴巴中观察到的动作。
良好的口型同步可以使实时2D动画更具说服力和功能强大,使动画角色可以更真实地体现性能。相反,不良的口型同步通常会破坏角色作为现场表演或对话参与者的幻觉。
在最近的论文预先公布的上的arXiv,两位研究人员在研究的Adobe和华盛顿大学推出了深基础的学习互动系统,可自动生成分层2 d动画人物活唇音同步。他们开发的系统使用了长期短期记忆(LSTM)模型,一种递归神经网络(RNN)架构,该架构通常应用于涉及对数据进行分类或处理以及进行预测的任务。
“由于语音几乎是每个实时动画的主要组成部分,因此我们认为在这一领域要解决的最关键的问题是实时口型同步,这需要将演员的语音转换为动画角色中相应的嘴部动作(即视位序列)。在这项工作中,我们致力于为实时2D动画创建高质量的口型同步。”进行这项研究的两位研究人员Wilmot Li和Deepali Aneja通过电子邮件告诉TechXplore。
Li是Adobe Research的首席科学家,拥有博士学位。计算机科学领域的一位学者,他一直在计算机图形学与人机交互的交叉点上进行广泛的研究。另一方面,Aneja目前正在完成博士学位。她是华盛顿大学计算机科学与图形图像实验室的成员。
Li和Aneja开发的系统使用简单的LSTM模型,以每秒24帧的速度将流音频输入转换为相应的视位音素序列,并且延迟不到200毫秒。换句话说,他们的系统允许动画人物的嘴唇以与人类用户实时说话类似的方式移动,而声音和嘴唇移动之间的延迟小于200毫秒。