您现在的位置是:首页 >要闻 > 2020-12-25 08:19:13 来源:

DeepMind的MuZero可以征服并学习规则

导读 爱因斯坦(Albert Einstein)曾经说过:您必须学习游戏规则,然后才能比其他人玩得更好。 这很可能是DeepMind的座右铭,因为一份新的报告显

爱因斯坦(Albert Einstein)曾经说过:“您必须学习游戏规则,然后才能比其他人玩得更好。” 这很可能是DeepMind的座右铭,因为一份新的报告显示它已经开发了一个程序,可以在不知道规则的情况下掌握复杂的游戏。

Alphabet的子公司DeepMind此前曾通过加强学习来开创性的进步,该课程教授掌握中国棋盘游戏Go和日本战略游戏Shogi以及国际象棋和具有挑战性的Atari电子游戏的程序。在所有这些情况下,计算机都被赋予了游戏规则。

但是《自然》杂志今天报道说,DeepMind的MuZero在没有首先学习规则的情况下也完成了相同的壮举,并且在某些情况下击败了早期的程序。

DeepMind的程序员依赖于称为“超前搜索”的原理。通过这种方法,MuZero可以根据对手的反应来评估许多潜在的举动。虽然在象棋这样的复杂游戏中可能会有惊人数量的潜在动作,但MuZero优先考虑最相关和最可能的动作,从成功的技巧中学习,并避免失败的技巧。

据研究人员称,在与雅达利(Atari)的吃豆女士(Pac-Man)对抗时,MuZero只能考虑考虑六到七个潜在的未来举动,但仍然表现出色。

“实际上,我们首次拥有了一个系统,能够建立自己对世界运作方式的理解,并利用这种理解来进行这种复杂的预见性计划,这是您以前在象棋这样的游戏中所见过的,” DeepMind的首席研究科学家David Silver说。MuZero可以“从零开始,通过反复试验,发现世界规则,并使用这些规则实现某种超人的表现。”

Silver预计MuZero的应用将比单纯的游戏更多。视频压缩已经取得了进展,考虑到大量不同的视频格式和多种压缩模式,这是一项艰巨的任务。到目前为止,它们的压缩率提高了5%,这对Google拥有的公司而言可谓是不小的壮举,该公司还处理着世界第二受欢迎的网站YouTube上巨大的视频缓存,其中十亿小时的内容每天查看。(排名第一的网站?Google。)

西尔弗说,实验室还正在研究机器人程序设计和蛋白质结构设计,这有望使药物个性化生产。