您现在的位置是:首页 >要闻 > 2020-12-17 08:43:20 来源:

人形机器人共语音手势生成的端到端学习

导读 韩国电子与电信研究所(ETRI)的研究人员最近开发了一种神经网络模型,该模型可以生成同声手势序列。他们的模型经过TED演讲长达52个小时的训

韩国电子与电信研究所(ETRI)的研究人员最近开发了一种神经网络模型,该模型可以生成同声手势序列。他们的模型经过TED演讲长达52个小时的训练,成功产生了与语音内容相匹配的类人手势。

进行这项研究的研究人员之一Youngwoo Yoon对TechXplore表示:“我们正在与之交互的智能设备已经从个人计算机发展到手机和智能扬声器。” “我们认为社交机器人可以成为下一个交互平台。物理运动是社交机器人与其他智能设备之间的主要区别之一,为模仿人或动物的行为开辟了新的可能性,可以增加亲密感。”

同语音手势可以极大地改善人类与社交机器人之间的交互质量。现有的大多数机器人都使用基于规则的语音手势关联方法来产生手势。但是,这些技术需要大量的努力,因为它们基于人类的专业知识和知识。

尹恩说:“我们希望产生自然的和人类般的社交行为,尤其是说话时的手势。” “观察他人是学习新行为的非常自然的方式,因此我们提出了一种基于学习的手势生成 模型,该模型在TED演讲的数据集上进行了训练。”

Yoon和他的同事设计的模型在包含TED演讲的52小时视频镜头的数据集上进行了训练。训练后,该模型可以生成类似于人的手势和上身姿势的序列,以匹配书面语音文本。

Yoon解释说:“设计机器人的社会行为既困难又费时,因为我们必须考虑环境,自然性,运动的美感,机器人的控制空间以及许多其他因素。” “最近的端到端学习研究揭示了人工智能产生这种复杂行为的潜力。在看到自动驾驶和面部运动生成成功应用后,我们决定将端到端学习应用于语音合成手势生成。”

Yoon和他的同事开发的神经网络模型成功生成了几种类型的手势,包括标志性,隐喻,指示性和拍打手势。而且,它能够为任何长度的语音文本生成连续的手势序列。

研究人员发现,他们的方法在创建类似于人类的手势方面优于基线方法。在一项主观评估中,在Amazon Mechanical Turk上招募的46个人认为该手势所产生的手势类似于人,并且与语音内容非常匹配。

Yoon说:“我们发现机器人可以学习社交技能。” “对于共语音手势的生成,在大规模数据集上训练的模型足够通用,因此机器人可以为任何语音做出类似人的手势。我们认为这种方法可以应用于其他社交技能,以及视频游戏和VR世界中的角色。”

Yoon和他的同事进行的这项研究强调了端到端学习对于共语音手势生成的潜力。在未来,它可以被用来提高人-机器人互动,还可能激发类似的研究,作为TED演讲集他们使用的是公开的。研究人员现在正计划通过为不同的机器人生成个性化手势来使他们的研究向前迈进一步。

Yoon说:“机器人可能像人一样有自己的个性。” “个性化的手势生成方法可以确保不同的机器人根据其角色来表达自己不同的手势样式。”