您现在的位置是:首页 >要闻 > 2020-11-26 09:26:01 来源:

深度强化学习像孩子一样教机器人

导读 当孩子们玩玩具时,他们会了解周围的世界,而如今的机器人并没有什么不同。在加州大学伯克利分校的机器人学习实验室中,成群的机器人正在努

当孩子们玩玩具时,他们会了解周围的世界,而如今的机器人并没有什么不同。在加州大学伯克利分校的机器人学习实验室中,成群的机器人正在努力完成与孩子们相同的任务:将木块放在形状分类立方体的正确插槽中,将一种塑料乐高积木连接到另一块塑料积木,将零散的零件连接到玩具飞机。

电气工程和计算机科学教授,机器人学习实验室主任Pieter Abbeel说,然而,真正的创新不是这些机器人的成就,而是它们的运行方式。

从儿童本能地学习和适应各种不可预测的环境的方式中汲取灵感,Abbeel和助理教授Sergey Levine正在开发算法,使机器人能够从过去的经验中学习,甚至可以从其他机器人中学习。基于一种名为“深度强化学习”的原理,他们的工作使机器人超越了展示类人智力的关键门槛,能够独立解决问题并以更快,更有效的方式完成新任务。

“如果您看到机器人通过强化学习来做某事,则意味着它实际上知道如何从自己的试验和错误中获得新技能,”阿比耶尔说。“这比完成的特定任务重要得多。”

尽管当今最先进的机器人仍然无法匹敌幼儿的脑力,但这些研究人员已准备好为机器人配备尖端的人工智能(AI)功能,从而使他们能够概括任务,即兴发挥对象并应对意料之外的挑战在他们周围的世界中。

做出“好的”决定

在过去的80年中,在数学,经济理论和AI方面看似无关的创新已经融合在一起,使机器人非常接近逼近人类智能的事物。

1947年,数学家约翰·冯·诺依曼(John von Neumann)和经济学家奥斯卡·莫根斯特恩(Oskar Morgenstern)提出了一个定理,该定理构成了称为期望效用理论的基础。简而言之,该理论认为,如果给定了一系列选择机会,一个人将选择能够产生最大程度个人满意度的结果的选择。而且,我们可以用数字值表示期望的结果,即“奖励”。

“这个数字代表了他们想要的东西,”阿比贝尔说。“因此,该定理表明,奖励是完全通用的。您唯一需要的就是数字。”

然后,研究人员通过向计算机提供数值激励来学习如何玩棋盘游戏,从而将该理论应用于计算机。

下棋。如果计算机的目标是尽可能快地对付其对手,那么该结果将分配给游戏中最高的数字。计算机探究要进行哪些操作以实现核对:“好”步为计算机赚取高分,而“坏”步则为低分。