在强化学习中，较慢的网络可以学得更快

在深度强化学习中优化新解决方案时，如果优化器能够倾向于先前的解决方案，将会有所帮助。

强化学习与深度神经网络

强化学习（RL）是人工智能中模拟顺序决策问题的一种日益流行的方法。RL智能体通过试错进行学习，反复与世界互动以学习最大化奖励信号的策略。

当与深度神经网络结合使用时，RL智能体最近取得了显著成果。这些所谓的深度RL成果中，最重要的是2015年引入深度Q网络（DQN）智能体的论文，该智能体在大量Atari游戏上超越了人类水平表现。

DQN的核心组成部分是一个优化器，它调整神经网络参数以最小化DQN目标。我们通常使用深度学习中标准的优化算法，但这些算法在设计时并未考虑解决深度RL时出现的复杂性。

近端更新方法

在今年的神经信息处理系统大会（NeurIPS）上，我们提出了一种新的优化器，能更好地应对RL的困难。该优化器使用了一种称为近端更新的简单技术，通过确保神经网络权重平稳缓慢地变化，使我们能够对冲噪声更新的影响。为实现这一点，在没有迹象表明这样做会损害智能体的情况下，我们将网络引导向先前的解决方案。

在论文中，我们表明DQN智能体最好被视为解决一系列优化问题。在每次迭代中，新的优化问题基于先前的迭代结果，即上次迭代产生的网络权重。在深度RL文献中也称为目标网络，先前的迭代结果是我们倾向于依赖的解决方案。

网络架构与优化机制

虽然目标网络编码了先前的解决方案，但第二个网络——在文献中称为在线网络——寻找新的解决方案。该网络通过沿着最小化DQN目标的方向移动，在每一步进行更新。

最小化DQN目标所需的梯度向量需要足够大，以抵消朝向先前解决方案（目标网络）的默认引力。如果在线网络和目标网络接近，近端更新的行为将类似于标准DQN更新。但如果两个网络相距较远，近端更新可能与DQN更新显著不同，因为它会鼓励缩小两个网络之间的差距。在我们的公式中，我们可以调整先前解决方案施加的引力程度，噪声较大的更新需要更高的引力。

性能评估

虽然近端更新导致神经网络参数变化较慢，但它们也导致在获得高奖励方面改进更快，这是RL中主要关注的数量。我们在论文中表明，这种改进适用于智能体的中期性能和渐近性能。它也适用于带有噪声的规划环境和大规模领域的学习环境，在这些环境中噪声的存在几乎不可避免。

为了在学习环境中评估我们的方法，我们将近端更新添加到两种标准RL算法中：上述DQN算法和更具竞争力的Rainbow算法，该算法结合了RL中各种现有的算法改进。

然后我们在标准的55个Atari游戏上测试了新算法，称为带近端更新的DQN（或DQN Pro）和Rainbow Pro。从结果图中我们可以看到：（1）Pro智能体优于其对应物；（2）基本DQN智能体在与环境进行1.2亿次交互（帧）后能够获得人类水平性能；（3）Rainbow Pro相对于原始Rainbow智能体实现了40%的相对改进。

此外，为确保近端更新确实导致更平稳和更慢的参数变化，我们测量了连续DQN解决方案之间的范数差异。我们期望在使用近端更新时，我们更新的大小会更小。在下面的图表中，我们在测试的四个不同Atari游戏上证实了这一期望。

结论与展望

总体而言，我们的经验和理论结果支持这样的主张：在深度RL中优化新解决方案时，优化器倾向于先前的解决方案是有益的。更重要的是，我们看到深度RL优化中的简单改进可以导致智能体性能的显著积极收益。我们将其视为证据，表明进一步探索深度RL中的优化算法将会富有成果。

我们已在GitHub上发布我们解决方案的源代码。

强化学习中慢速网络的学习加速机制

本文探讨了在深度强化学习中通过近端更新技术优化神经网络训练的方法，该方法通过控制网络参数变化速度来提升学习效率，在Atari游戏测试中实现了40%的性能提升。