在强化学习中,较慢的网络可以学得更快
在深度强化学习中优化新解决方案时,如果优化器倾向于先前的解决方案会有所帮助。
强化学习(RL)是一种日益流行的人工智能序列决策建模方法。RL智能体通过试错进行学习,不断与世界互动以学习最大化奖励信号的策略。
RL智能体与深度神经网络结合使用时最近取得了显著成果。其中最重要的是2015年引入深度Q网络(DQN)智能体的论文,该智能体在大量Atari游戏上超越了人类水平表现。DQN的核心组件是优化器,它调整神经网络参数以最小化DQN目标。
在今年的神经信息处理系统大会(NeurIPS)上,我们提出了一种新型优化器,能更好地应对RL的困难。该优化器使用称为proximal更新的简单技术,通过确保神经网络权重平滑缓慢变化来抵御噪声更新。为实现这一点,在没有迹象表明会损害智能体的情况下,我们将网络引导至先前的解决方案。
调整引力
论文表明,DQN智能体最好被视为解决一系列优化问题。每次迭代时,新的优化问题都基于先前的迭代结果,即上次迭代产生的网络权重(在深度RL文献中称为目标网络)。目标网络编码先前的解决方案,而第二个网络(文献中称为在线网络)则寻找新的解决方案。
最小化DQN目标产生的梯度向量需要足够大以抵消朝向先前解决方案(目标网络)的默认引力。如果在线网络和目标网络接近,proximal更新的行为将类似于标准DQN更新。但如果两个网络相距较远,proximal更新可能与DQN更新显著不同,因为它会鼓励缩小两个网络之间的差距。
虽然proximal更新导致神经网络参数变化较慢,但它们也导致在获得高奖励方面改进更快,这是RL中主要关注量。论文表明这种改进适用于智能体的中期性能和渐近性能,既适用于带噪声的规划环境,也适用于噪声几乎必然存在的大规模领域学习环境。
评估
在学习设置中评估方法时,我们将proximal更新添加到两种标准RL算法:上述DQN算法和更具竞争力的Rainbow算法。然后在55个Atari游戏的标准集上测试新算法DQN Pro和Rainbow Pro。
结果图表显示:(1) Pro智能体表现优于对应版本;(2) 基础DQN智能体在与环境进行1.2亿次交互后能达到人类水平性能;(3) Rainbow Pro相比原始Rainbow智能体实现40%的相对改进。
为确认proximal更新确实导致更平滑缓慢的参数变化,我们测量了连续DQN解决方案之间的范数差异。使用proximal更新时期望更新幅度更小,在四个不同Atari游戏上的测试证实了这一期望。
结论
实证和理论结果支持这一主张:在深度RL中优化新解决方案时,优化器倾向于先前解决方案是有益的。更重要的是,深度RL优化的简单改进可以带来智能体性能的显著积极收益。这证明进一步探索深度RL中的优化算法将富有成果。
源代码已在GitHub上发布。