您现在的位置是:首页 >财经 > 2021-04-28 22:29:02 来源:

谷歌发布了用于培训AI模型的开源强化学习框架

导读 强化学习 - 一种人工智能(AI)技术,使用奖励(或惩罚)来驱动代理人朝着特定目标前进 - 训练系统击败Alpha Go世界冠军并掌握Valve的Dota

强化学习 - 一种人工智能(AI)技术,使用奖励(或惩罚)来驱动代理人朝着特定目标前进 - 训练系统击败Alpha Go世界冠军并掌握Valve的Dota 2。它是谷歌子公司DeepMind的深度Q网络(DQN)的核心部分,它可以在多个工作人员中分配学习,例如,在Atari 2600游戏中实现“超人”性能。麻烦的是,强化学习框架需要时间来掌握一个目标,往往是不灵活的,并不总是稳定的。

这就是谷歌提出替代方案的原因:基于TensorFlow的开源强化框架,它是机器学习库。 从今天开始,它可以从Github获得 。

“受到大脑中奖励动机行为的主要成分之一的启发,并反映了神经科学与强化学习研究之间强烈的历史联系,该平台旨在实现可以推动激进发现的那种投机性研究,”Pablo Samuel Castro和Google Brain Team的研究人员Marc G. Bellemare在一篇博文中写道。“这个版本还包括一组阐明如何使用我们框架的colabs。”

谷歌发布了用于培训AI模型的开源强化学习框架

他们和Google Brain团队开发了强化框架,其中考虑了三个原则:灵活性,稳定性和可重复性。

为此,它包括一套精心编写的代码(15个Python文件),专注于街机学习环境 - 一个用视频游戏评估AI技术的平台 - 以及四种不同的机器学习模型:上述DQN; C51; Rainbow代理的简化版本; 和隐式分位数网络。为了重现性,代码在Arcade学习环境支持的60个游戏中提供完整的测试覆盖率和训练数据(以JSON和Python pickle格式),并遵循标准化经验评估结果的最佳实践。

除了增强框架的发布,谷歌还推出了一个网站,允许开发人员快速可视化多个代理的培训运行。它还提供经过训练的模型,原始统计日志和TensorFlow事件文件,用于TensorBoard绘图,TensorBoard是Mountain View公司的TensorFlow程序可视化工具套件。

“我们的希望是,我们的框架的灵活性和易用性将使研究人员能够尝试新的思想,包括增量和激进,”Bellemare和Castro写道。“我们已经积极地将它用于我们的研究,并发现它使我们能够灵活地快速迭代许多想法。我们很高兴看到更大的社区可以做些什么。