您现在的位置是:首页 >财经 > 2020-11-10 15:18:46 来源:
强化学习到底是什么如何运作
强化学习是机器学习的一个子集。它使代理能够了解特定环境中操作的后果。例如,它可以用于教机器人新技巧。强化学习是一种行为学习模型,其中算法提供数据分析反馈,将用户引导到最佳结果。它不同于其他形式的监督学习,因为样本数据集不会训练机器。相反,它是通过反复试验来学习的。因此,一系列正确的决策将加强该方法,因为它可以更好地解决问题。
强化学习类似于我们小时候人类所拥有的东西。我们所有人都经历了学习的强化–当您开始爬行并试图站起来时,您一遍又一遍跌倒,但是您的父母却在那里扶着您并教您。
它是基于经验的教学,在这种教学中,机器必须处理之前发生的问题并寻找正确的方法。
尽管我们没有描述奖励政策(即游戏规则),但我们并未向模型提供任何有关如何解决游戏的提示或建议。由模型决定从随机测试和复杂的战术开始,如何执行任务以优化奖励。
通过利用研究能力和多次尝试,强化学习是表明计算机想象力的最成功方法。与人类不同,人工智能将从成千上万的辅助游戏中获取知识。同时,强化学习算法可在强大的计算机基础结构上运行。
例如,在YouTube上的推荐就是强化学习的一个例子。观看视频后,该平台将向您显示您认为喜欢的类似标题。但是,假设您开始观看推荐并且没有完成推荐。在这种情况下,机器会理解该建议不是一个好的建议,并且下次将尝试另一种方法。
强化学习挑战
强化学习的主要挑战是计划仿真环境,该环境很大程度上取决于要执行的任务。如果接受过国际象棋,围棋或Atari游戏的训练,则模拟环境的准备相对容易。建立能够驾驶自动驾驶汽车的模型,是在让汽车驶上街道之前创建逼真的原型的关键。该模型必须决定如何在安全的环境中打破或防止碰撞。将模型从训练环境转移到现实世界变得成问题。
扩展和修改代理的神经网络是另一个问题。除了奖励和处罚外,没有其他方法可以与网络建立联系。这可能会导致灾难性的健忘,在这种情况下,获取新信息会导致一些旧知识从网络中删除。换句话说,我们必须继续在代理的“记忆”中学习。
另一个困难是到达一个合适的位置-即,代理人按原样执行任务,但没有以理想或要求的方式执行任务。像袋鼠一样跳跃的“跳跃者”而不是期望他做的是一个很好的例子。最后,某些特工可以在不完成任务的情况下最大化奖品。