在强化学习中,较慢的网络可以学得更快
在深度强化学习中优化新解决方案时,如果优化器能够倾向于先前的解决方案,将会有所帮助。
强化学习与深度神经网络
强化学习(RL)是人工智能中模拟顺序决策问题的一种日益流行的方法。RL智能体通过试错进行学习,反复与世界互动以学习最大化奖励信号的策略。
当与深度神经网络结合使用时,RL智能体最近取得了显著成果。这些所谓的深度RL成果中,最重要的是2015年引入深度Q网络(DQN)智能体的论文,该智能体在大量Atari游戏上超越了人类水平表现。
DQN的核心组成部分是一个优化器,它调整神经网络参数以最小化DQN目标。我们通常使用深度学习中标准的优化算法,但这些算法在设计时并未考虑解决深度RL时出现的复杂性。
近端更新方法
在今年的神经信息处理系统大会(NeurIPS)上,我们提出了一种新的优化器,能更好地应对RL的困难。该优化器使用了一种称为近端更新的简单技术,通过确保神经网络权重平稳缓慢地变化,使我们能够对冲噪声更新的影响。为实现这一点,在没有迹象表明这样做会损害智能体的情况下,我们将网络引导向先前的解决方案。
在论文中,我们表明DQN智能体最好被视为解决一系列优化问题。在每次迭代中,新的优化问题基于先前的迭代结果,即上次迭代产生的网络权重。在深度RL文献中也称为目标网络,先前的迭代结果是我们倾向于依赖的解决方案。
网络架构与优化机制
虽然目标网络编码了先前的解决方案,但第二个网络——在文献中称为在线网络——寻找新的解决方案。该网络通过沿着最小化DQN目标的方向移动,在每一步进行更新。
最小化DQN目标所需的梯度向量需要足够大,以抵消朝向先前解决方案(目标网络)的默认引力。如果在线网络和目标网络接近,近端更新的行为将类似于标准DQN更新。但如果两个网络相距较远,近端更新可能与DQN更新显著不同,因为它会鼓励缩小两个网络之间的差距。在我们的公式中,我们可以调整先前解决方案施加的引力程度,噪声较大的更新需要更高的引力。
性能评估
虽然近端更新导致神经网络参数变化较慢,但它们也导致在获得高奖励方面改进更快,这是RL中主要关注的数量。我们在论文中表明,这种改进适用于智能体的中期性能和渐近性能。它也适用于带有噪声的规划环境和大规模领域的学习环境,在这些环境中噪声的存在几乎不可避免。
为了在学习环境中评估我们的方法,我们将近端更新添加到两种标准RL算法中:上述DQN算法和更具竞争力的Rainbow算法,该算法结合了RL中各种现有的算法改进。
然后我们在标准的55个Atari游戏上测试了新算法,称为带近端更新的DQN(或DQN Pro)和Rainbow Pro。从结果图中我们可以看到:(1)Pro智能体优于其对应物;(2)基本DQN智能体在与环境进行1.2亿次交互(帧)后能够获得人类水平性能;(3)Rainbow Pro相对于原始Rainbow智能体实现了40%的相对改进。
此外,为确保近端更新确实导致更平稳和更慢的参数变化,我们测量了连续DQN解决方案之间的范数差异。我们期望在使用近端更新时,我们更新的大小会更小。在下面的图表中,我们在测试的四个不同Atari游戏上证实了这一期望。
结论与展望
总体而言,我们的经验和理论结果支持这样的主张:在深度RL中优化新解决方案时,优化器倾向于先前的解决方案是有益的。更重要的是,我们看到深度RL优化中的简单改进可以导致智能体性能的显著积极收益。我们将其视为证据,表明进一步探索深度RL中的优化算法将会富有成果。
我们已在GitHub上发布我们解决方案的源代码。