您现在的位置是:首页 >动态 > 2020-12-10 10:36:12 来源:

使用模仿和强化学习来解决长期的机器人任务

导读 强化学习(RL)是一种广泛使用的机器学习技术,它需要使用奖励和惩罚系统来训练AI代理或机器人。到目前为止,机器人技术领域的研究人员主要将

强化学习(RL)是一种广泛使用的机器学习技术,它需要使用奖励和惩罚系统来训练AI代理或机器人。到目前为止,机器人技术领域的研究人员主要将RL技术应用于在相对较短的时间内完成的任务,例如向前移动或抓取物体。

Google和伯克利AI Research的研究人员团队最近开发了一种将RL与模仿学习相结合的新方法,该过程称为中继策略学习。这种方法在arXiv上预发表的论文中引入并在大阪的机器人学习会议(CoRL)2019上提出,可用于训练人工代理来解决多阶段和长期的任务,例如跨越对象的操纵任务在更长的时间内

进行这项研究的研究者之一Abhishek Gupta告诉TechXplore:“我们的研究起源于许多使用强化学习(RL)进行非常长的任务的实验,但大多没有成功。” “如今,机器人技术中的RL主要用于可以在短时间内完成的任务,例如抓紧,推动物体,向前走等。尽管这些应用具有很大的价值,但我们的目标是将强化学习应用于需要多个子目标并在更长的时间内进行的任务,例如摆桌子或打扫厨房。”

在开始开发方法之前,Gupta和他的同事回顾了以前的文献,试图确定为什么使用当前的RL技术尤其难以解决更长的任务。他们在他们的论文中指出,通常有两个主要原因。

首先,机器人很难自行确定最佳解决方案来解决长期而复杂的任务。其次,代理很难成功地解决仅在长序列结束时才提供反馈的长任务。中继策略学习是他们提出的一种新的学习方法,旨在解决这些挑战。

Gupta说:“为了解决让机器人自行解决长期任务的挑战,我们决定简化问题并使用人工提供的演示工具。” “解决长任务很困难,因为要让机器人自己发现有趣的行为非常困难,人类提供的演示可以用作在环境中进行有趣的事情的指南。”