您现在的位置是:首页 >财经 > 2020-12-10 10:34:38 来源:

一种无需人工演示就能训练机器人的模仿学习方法

导读 大多数人可以通过观察他人仅执行一次任务来学习如何完成给定任务。但是,被编程为通过模仿人类学习的机器人通常需要在一系列人类演示中进行

大多数人可以通过观察他人仅执行一次任务来学习如何完成给定任务。但是,被编程为通过模仿人类学习的机器人通常需要在一系列人类演示中进行训练,然后才能有效地复制所需的行为。

研究人员最近能够使用元学习方法,通过让机器人观察单个人类演示,来教机器人执行新任务。但是,这些学习技术通常需要现实世界中的数据,这些数据可能昂贵且难以收集。

为了克服这一挑战,伦敦帝国理工学院的研究人员开发了一种新方法,该方法无需使用现实世界中的人类演示,就可以在机器人中进行一次仿制学习。他们的方法在arXiv上预先发表的一篇论文中提出,使用了称为任务嵌入式控制网络(TecNets)的算法,该算法允许人工代理从单个或多个演示中学习如何完成任务以及人工生成的训练数据。

研究人员在论文中写道:“我们证明,通过嵌入任务的控制网络,我们可以通过嵌入人类示范来推断控制策略,这些示范可以制定控制策略并实现一次模仿学习。”

由研究人员提出的方法不需要与现实中人类的任何交互机器人的训练。该方法使用TechNets来推断控制策略,嵌入可演示给定控制策略并最终实现一键式模仿学习的人类演示。

为了消除训练过程中对现实世界中的人类演示的需求,研究人员使用了模拟人类演示的视频数据集,这些视频数据集是使用PyRep(最近发布的用于机器人学习研究的工具包)生成的。研究人员使用PyRep对人类3-D手臂进行建模,然后将其分解为各种形状,以再现类似于人类观察到的动作。

然后,他们创建了一个由视频组成的数据集,该模拟手臂在其中执行了许多任务,并用它来训练机器人系统。最终,机器人仅通过分析这些模拟视频并在现实世界中进行一次人工演示就能够学习如何完成任务。

研究人员在论文中解释说:“重要的是,我们在训练期间不使用真实的手臂来提供演示,而是在以前从未见过的应用程序中利用域随机化:在人类上实现从模拟到真实的传输,”研究人员在论文中解释说。

该团队在模拟和现实世界中都评估了这种新的单次学习方法,使用它来训练机器人来完成涉及放置和推动对象的任务。值得注意的是,他们的学习方法所取得的结果可与使用更传统的基于模仿学习的方法所取得的结果相提并论,尽管它需要对机器人进行人工生成的视频而非真实的人类演示进行训练。