您现在的位置是:首页 >综合 > 2020-11-29 08:53:16 来源:

融合在线和离线强化学习的算法

导读 近年来,越来越多的研究人员正在开发基于人工神经网络(ANN)的模型,可以使用称为强化学习(RL)的技术对其进行训练。RL要求训练人工代理以通

近年来,越来越多的研究人员正在开发基于人工神经网络(ANN)的模型,可以使用称为强化学习(RL)的技术对其进行训练。RL要求训练人工代理以通过在他们表现良好(例如,正确分类图像)时给予他们“奖励”来解决各种任务。

到目前为止,大多数基于人工神经网络的模型进行了培训采用网上RL方法,其中,这是从来没有接触到代理人的任务是通过与网络虚拟环境交互设计,完全可以学习。但是,这种方法可能非常昂贵,费时且效率低下。

最近,一些研究探索了离线训练模型的可能性。在这种情况下,人工代理通过分析固定的数据集学习完成给定的任务,因此不会主动与虚拟环境进行交互。尽管离线RL方法在某些任务上取得了可喜的成果,但它们不允许代理实时学习。

加州大学伯克利分校的研究人员最近推出了一种新的算法,该算法使用在线和离线RL方法进行了训练。该算法在arXiv上预先发表的一篇论文中提出,最初是针对大量离线数据进行训练的,但同时也完成了一系列的在线训练试验。

进行这项研究的研究人员之一阿什文·奈尔(Ashvin Nair)对TechXplore表示:“我们的工作重点是在现实世界的机器人环境中不断面临的两个案例之间的情况。” “通常,在尝试解决机器人技术问题时,研究人员拥有一些先验数据(例如,一些有关如何解决任务的专家演示或您上次执行的实验中的一些数据),并且希望利用先验数据来解决任务部分地,但是然后能够微调解决方案以通过少量交互来掌握它。”

在回顾过去的RL文献时,Nair和他的同事意识到,先前开发的模型在首先进行离线训练然后进行在线微调时效果不佳。这通常是因为他们学习速度太慢或在培训期间未充分利用离线数据集。