NeurIPS强化学习挑战赛优胜者揭晓

某中心云服务赞助了本次挑战赛，并为参赛者提供了数据准备、处理以及模型训练、部署和测试所需的资源。

竞赛是年度NeurIPS会议计划的重要组成部分。今年共有16项竞赛入选，其中四分之一专注于推动深度强化学习（RL）的科学进展——智能体通过与环境进行试错探索来学习最大化奖励。近年来，强化学习在游戏、自动驾驶、电网管理等领域取得了突破性进展。某中心SageMaker RL团队与某机构合作，为Procgen挑战赛提供训练和评估支持。

赢得本次挑战赛需要参赛者开发新的RL模型，以最大化样本效率和泛化能力。某中心SageMaker RL团队开源了基于某机构Ray RLlib的入门笔记本，这是一个通过Ray分布式学习框架实现RL应用的库。这帮助参赛者更快地进行迭代；实际上，使用某中心SageMaker笔记本实例，参赛者只需花费几美元并在不到一小时内就能获得结果。

挑战赛设有泛化性和样本效率两个赛道，包含三轮比赛，吸引了82支团队的500多名参与者。参赛者可以选择参加一个或两个赛道。第一轮筛选出50支团队，第二轮确定了10支决赛队伍。在最后两轮比赛中，某机构运行了33,000个模型，生成了超过230,000个虚拟CPU小时和28,500个GPU小时。在整个比赛期间，使用某中心SageMaker评估了172,000个模型。

获胜团队

在上周五的NeurIPS深度强化学习虚拟研讨会上，公布了获胜者。祝贺泛化性赛道的两人团队Dipam Chakraborty和Nhat Quang Tran，以及样本效率赛道的两人团队Adrien Gaidon和Blake Wulfe。两支团队的解决方案均基于对阶段性策略梯度（PPG）算法的改进，这是一种新的强化学习算法，在保持策略和价值函数之间特征共享的同时，解耦了它们的训练。两支团队都使用了超参数调优来优化他们的方法。

Dipam和Quang对原始PPG算法进行了多项修改，使他们在从未见过的环境中学习泛化RL智能体方面取得了最佳性能。关于他们方法的更多细节可以在比赛演示视频中找到，而某机构托管了他们的评估视频和代码。

Adrien和Blake对PPG的修改包括在辅助阶段进行数据增强，但在策略阶段不进行。他们还尝试了奖励归一化和奖励塑造。他们的方法在样本效率方面取得了最佳性能，即使用最少的样本达到指定的奖励值。这使得他们的模型训练速度最快。他们的演示视频以及评估视频和代码也已在线发布。

作为赞助方，某中心云服务向顶级团队颁发了9,000美元现金和9,000美元云服务积分。

挑战赛背景

本次挑战赛由某机构与某研究组织合作设计，基于某研究组织的Procgen基准测试。设计者的目标之一是建立一个集中且易于访问的排行榜，以衡量RL中的样本效率和泛化能力。关于挑战赛设计的更多信息可在网上找到。

Procgen基准测试是一套16个程序生成的训练环境，提供了RL智能体学习可泛化技能速度的直接测量。智能体在这些环境的程序生成实例中进行评估，这些实例是公开可访问的，并且还有为比赛创建的四个秘密测试环境。通过汇总这么多不同环境的性能，我们获得了高质量的指标来评判底层算法。

由于每个Procgen环境都是程序生成的，它要求智能体泛化到从未见过的情况。因此，这些环境提供了对智能体在许多不同设置中学习能力的稳健测试。此外，Procgen环境设计为轻量级且易于使用。计算资源有限的参与者可以轻松复现基线结果并运行新实验。关于设计原则和单个环境细节的更多信息可以在论文《利用程序生成来基准测试强化学习》中找到。

某中心SageMaker RL团队感谢有机会赞助本次挑战赛。我们要再次祝贺所有参与者，特别是获胜者，并特别感谢某机构在支持比赛方面所扮演的角色。