在强化学习(RL)中,较慢的网络可以学习得更快 - 某中心科学
当在深度强化学习中优化新解决方案时,如果优化器倾向于先前的解决方案,则会有所帮助。
会议
NeurIPS 2022
相关出版物
《使用较慢在线网络实现更快深度强化学习》
强化学习(RL)是人工智能中模拟顺序决策问题的一种日益流行的方法。RL代理通过试错学习,反复与世界互动以学习最大化奖励信号的策略。
RL代理最近在与深度神经网络结合使用时取得了显著成果。这些所谓的深度RL成果中,最重要的是2015年引入深度Q网络(DQN)代理的论文,该代理在一大批Atari游戏中超越了人类水平性能。DQN的核心组件是一个优化器,它调整神经网络参数以最小化DQN目标。我们通常使用深度学习中的标准优化算法,但这些算法并未考虑解决深度RL时出现的复杂性。
在今年的神经信息处理系统会议(NeurIPS)上,我们提出了一种新优化器,能更好地应对RL的困难。该优化器使用一种称为proximal更新的简单技术,通过确保神经网络权重平滑缓慢变化来抵御噪声更新。为实现这一点,在没有迹象表明会损害代理的情况下,我们将网络导向其先前的解决方案。
调整引力
我们在论文中表明,DQN代理最好被视为解决一系列优化问题。每次迭代时,新的优化问题基于先前的迭代或上次迭代产生的网络权重。在深度RL文献中也称为目标网络,先前的迭代是我们倾向于的解决方案。
虽然目标网络编码先前的解决方案,但第二个网络——文献中称为在线网络——找到新的解决方案。该网络通过在最小化DQN目标的方向移动而在每一步更新。最小化DQN目标的梯度向量需要足够大以抵消对先前解决方案(目标网络)的默认引力。如果在线网络和目标网络接近,proximal更新的行为将类似于标准DQN更新。但如果两个网络相距较远,proximal更新可能与DQN更新显著不同,因为它会鼓励缩小两个网络之间的差距。在我们的公式中,我们可以调整先前解决方案施加的引力程度,噪声较大的更新需要更高的引力。
虽然proximal更新导致神经网络参数变化较慢,但它们也导致在获得高奖励方面改进更快,这是RL中主要关注量。我们在论文中表明,这种改进适用于代理的临时性能和其渐近性能。它也适用于带有噪声的规划上下文和在大规模领域学习的上下文,其中噪声的存在几乎不可避免。
评估
为在学习设置中评估我们的方法,我们将proximal更新添加到两种标准RL算法:上述DQN算法和更具竞争力的Rainbow算法,后者结合了RL中各种现有算法改进。
然后我们在标准55个Atari游戏集上测试新算法,称为带Proximal更新的DQN(或DQN Pro)和Rainbow Pro。从结果图中我们可以看到:(1)Pro代理优于其对应物;(2)基本DQN代理在与环境(帧)交互1.2亿次后能够获得人类水平性能;(3)Rainbow Pro相比原始Rainbow代理实现了40%的相对改进。
此外,为确保proximal更新确实导致更平滑和更慢的参数变化,我们测量了连续DQN解决方案之间的范数差异。我们期望使用proximal更新时更新的幅度更小。在下面的图中,我们在测试的四个不同Atari游戏上证实了这一期望。
目标网络更新幅度(DQN迭代中两个连续解决方案之间的距离)。使用proximal更新导致更小的更新,如预期。
总体而言,我们的经验和理论结果支持这一主张:在深度RL中优化新解决方案时,优化器倾向于先前解决方案是有益的。更重要的是,我们看到深度RL优化的简单改进可以导致代理性能的显著积极收益。我们以此为证据,表明进一步探索深度RL中的优化算法将富有成果。
我们已在GitHub上发布解决方案的源代码。
研究领域
机器学习
标签
强化学习, NeurIPS
关于作者
Kavosh Asadi是某机构网络服务的应用科学家。