您现在的位置是:首页 >要闻 > 2020-12-08 08:46:49 来源:
研究人员介绍了减少机器学习时间的新算法
导读 中国科学院深圳先进技术研究所(SIAT)的李慧云教授领导的研究团队介绍了一种简单的深度强化学习(DRL)算法,该算法采用m-out-of-n引导程序技
中国科学院深圳先进技术研究所(SIAT)的李慧云教授领导的研究团队介绍了一种简单的深度强化学习(DRL)算法,该算法采用m-out-of-n引导程序技术,并具有多个深度确定性策略梯度(DDPG)算法结构。
新算法被称为“自举聚合多DDPG”(BAMDDPG),加速了训练过程,并提高了智能人工研究领域的性能。
研究人员在二维机器人和开放式赛车模拟器(TORCS)上测试了他们的算法。在二维机器人手臂博弈中的实验结果表明,集合策略所获得的报酬比子策略所获得的报酬要高10%-50%,而在TORCS上的实验结果表明,该新算法可以学习到成功的控制策略。培训时间减少了56.7%。
在连续动作空间上运行的DDPG算法在强化学习中引起了极大的关注。然而,即使对于简单的系统,通过贝叶斯信念状态空间中的动态编程进行的探索策略也是相当低效的。当学习最佳策略时,这通常会导致标准引导失败。
所提出的算法使用集中式体验重放缓冲区来提高探索效率。具有随机初始化功能的n出n引导程序可以以较低的计算成本产生合理的不确定性估计,从而有助于训练的收敛。建议的自举和聚合DDPG可以减少学习时间。
BAMDDPG使每个代理可以使用其他代理遇到的经验。由于每个代理都拥有更广阔的视野和更多的环境信息,因此这使BAMDDPG子政策的培训更加有效。
此方法对于顺序和迭代训练数据有效,在该数据中,数据表现出长尾分布,而不是独立的相同分布的数据假设所暗示的范数分布。对于具有连续动作和状态空间的任务,它可以用更少的培训时间来学习最佳策略。
该研究的标题为“具有多个深度确定