近期深度强化学习取得了很多成功,深度算法但也存在局限性:缺乏稳定性、策略可复现性差。梯度来自 MIT 和 Two Sigma 的真正研究者重新检验了深度强化学习方法的概念基础,即目前深度强化学习的策度算实践多大程度上反映了其概念基础框架的原则?该研究重点探讨深度策略梯度方法。 深度强化学习是略梯现代机器学习最为人所知的成就,它造就了 AlphaGO 这样广为人知的深度算法应用。对很多人来说,策略该框架展示了机器学习对现实世界的梯度影响力。但是真正,不像当前的策度算深度(监督)学习框架,深度强化学习工具包尚未支持足够的略梯工程稳定性。的深度算法确,近期的策略研究发现当前***的深度强化学习算法对超参数选择过于敏感,缺乏稳定性,梯度且可复现性差。 这表明或许需要重新检验深度强化学习方法的概念基础,准确来说,该研究要解决的源码库重要问题是:目前深度强化学习的实践多大程度上反映了其概念基础框架的原则? 该论文重点研究深度策略梯度方法,这是一种广泛使用的深度强化学习算法。研究目标是探索这些方法的当前***实现多大程度上体现了通用策略梯度框架的关键基元。 该论文首先检验重要的深度策略梯度方法近端策略优化(PPO)。研究发现 PPO 的性能严重依赖于非核心算法的优化,这表明 PPO 的实际成功可能无法用其理论框架来解释。 这一观察促使研究者进一步检查策略梯度算法及其与底层框架之间的关系。研究者对这些算法在实践中展示的关键强化学习基元进行了细致地检查。具体而言,研究了: 研究者认为以上问题以及我们对相关理论知识的缺乏是深度强化学习脆弱性和低复现性的主要原因。这表明构建可信赖的深度强化学习算法要求抛弃之前以基准为中心的评估方法,以便多角度地理解这些算法的非直观行为。 论文:Are Deep Policy Gradient Algorithms Truly Policy Gradient Algorithms? 论文链接:https://arxiv.org/pdf/1811.02553.pdf 摘要:本文研究了深度策略梯度算法对促进其发展的底层概念框架的反映程度。我们基于该框架的关键要素对当前***方法进行了精细分析,这些方法包括梯度估计、价值预测、***化 landscape 和置信域分析。我们发现,从这个角度来看,深度策略梯度算法的行为通常偏离其概念框架的预测。服务器托管我们的分析开启了巩固深度策略梯度算法基础的***步,尤其是,我们可能需要抛弃目前以基准为中心的评估方法。 检查深度策略梯度算法的基元 1. 梯度估计的质量 策略梯度方法的核心前提是恰当目标函数上的随机梯度上升带来优秀的策略。具体来说,这些算法使用(代理)奖励函数的梯度作为基元: 这些方法的理论背后的底层假设是,我们能够获取对梯度的合理估计,即我们能够使用有限样本(通常大约 103 个)的经验平均值准确估计上面的期望项。因此研究者对实践中该假设的有效性很感兴趣。 我们计算出的梯度估计准确度如何?为了解决该问题,研究者使用了评估估计质量最自然的度量标准:经验方差(empirical variance)和梯度估计向「真正」梯度的收敛情况。 图 2 图 2:梯度估计的经验方差在 MuJoCo Humanoid 任务中可作为状态-动作对关于数量的函数,x 轴为状态-动作对,y 轴是梯度估计的经验方差。 图 3 图 3:MuJoCo Humanoid 任务中梯度估计向「真正」期望梯度的收敛情况。 2. 价值预测 图 4 图 4:对于训练用于解决 MuJoCo Walker2d-v2 任务的智能体,在留出状态-动作对上的价值预测质量(度量指标为平均相对误差 MRE)。 3. 探索***化 landscape 策略梯度算法的另一个基础假设是对策略参数使用一阶更新可以带来性能更好的策略。因此接下来我们就来看该假设的有效性。 图 6:在 Humanoid-v2 MuJoCo 任务上,TRPO 的真正奖励函数 Landscape。 图 8:在 Humanoid-v2 MuJoCo 任务上,PPO 的真正和代理奖励函数 Landscape。 4. 置信域的优化 图 9 图 9:对于训练用于解决 MuJoCo Humanoid 任务的智能体,每一步的平均奖励、***速率(maximum ratio)、平均 KL 和 maximum versus mean KL 情况。 为深度强化学习奠定更好的基础 深度强化学习算法根植于基础稳固的经典强化学习框架,在实践中展示了巨大的潜力。但是,该研究调查显示,该底层框架无法解释深度强化学习算法的很多行为。这种分裂妨碍我们深入理解这些算法成功(或失败)的原因,而且成为解决深度强化学习所面临重要挑战的极大障碍,比如广泛的脆弱性和薄弱的可复现性。 为了解决这种分类,我们需要开发更加贴近底层理论的方法,或者构建能够捕捉现有策略梯度算法成功原因的理论。不管哪种情况,***步都要准确指出理论和实践的分岔点。这部分将分析和巩固前一章的发现和结果。 【本文是专栏机构“机器之心”的原创译文,微信公众号“机器之心( id: almosthuman2014)”】 戳这里,看该作者更多好文