您现在的位置是:首页 >要闻 > 2020-12-04 15:13:29 来源:

受婴儿行为启发而改善机器学习的技术

导读 从出生的第一年开始,人类就具有天生的能力,他们可以不断地学习并建立世界的心理模型,只需观察并与周围的事物或人互动即可。认知心理学研

从出生的第一年开始,人类就具有天生的能力,他们可以不断地学习并建立世界的心理模型,只需观察并与周围的事物或人互动即可。认知心理学研究表明,人类会广泛利用以前获得的知识,尤其是在遇到新情况或做出决策时。

尽管最近在人工智能(AI)领域取得了重大进展,但大多数虚拟代理仍需要数百小时的培训才能在几个任务中达到人类水平的性能,而人类可以学习如何在几小时或更短的时间内完成这些任务。最近的研究强调了人类如此迅速地获取知识的能力的两个关键因素,即直观的物理学和直观的心理学。

从开发的早期阶段就在人类中观察到的这些直觉模型可能是未来学习的核心推动者。基于这一想法,韩国高级科学技术研究院(KAIST)的研究人员最近开发了一种内在的奖励归一化方法,该方法可以使AI代理选择最能改善其直觉模型的动作。在arXiv上预先发表的论文中,研究人员专门提出了一种图形物理网络,该网络与受人类婴儿观察到的学习行为启发的深度强化学习相集成。

研究人员在论文中解释说:“想像人类婴儿在一间房间里,玩具摆在可以触及的距离处。” “他们不断地对物体进行抓取,投掷和执行动作;有时,他们观察到动作的后果,但有时,他们失去兴趣并转移到另一个物体上。'儿童为科学家'的观点表明,人类婴儿是具有内在动机去进行自己的实验,发现更多信息,并最终学会区分不同的对象并为它们创建更丰富的内部表示。”

心理学研究表明,人类在生命的最初几年中一直在不断地探索周围的环境,这使他们能够形成对世界的关键理解。此外,当孩子观察到的结果不符合他们先前的期望(即违反期望)时,通常会鼓励他们做进一步的实验以更好地了解自己所处的状况。

KAIST的研究人员团队尝试使用强化学习方法在AI代理中重现这些行为。在他们的研究中,他们首先引入了图形物理网络,该网络可以提取对象之间的物理关系并预测其在3-D环境中的行为。随后,他们将该网络与深度强化学习模型集成在一起,引入了一种内在的奖励归一化技术,该技术鼓励AI代理探索和识别将不断改善其直觉模型的动作。

研究人员使用3D物理引擎证明了他们的图形物理网络可以有效地推断不同物体的位置和速度。他们还发现,他们的方法使深度强化学习网络能够不断改善其直觉模型,鼓励其仅基于内在动机与对象进行交互。

在一系列评估中,由这组研究人员设计的新技术取得了非凡的准确性,其中AI代理执行了更多的不同探索操作。将来,它可以为机器学习工具的发展提供信息,这些工具可以更快,更有效地从过去的经验中学习。

研究人员在论文中解释说:“我们已经在不同质量和半径的球形物体的场景中测试了网络在静止和非静止问题上的作用。” “我们的希望是,这些经过预训练的直觉模型将在以后用作其他面向目标的任务(如ATARI游戏或视频预测)的先验知识。”