NeurIPS强化学习挑战赛优胜者揭晓

本文介绍了NeurIPS 2020强化学习挑战赛的详细情况,包括比赛设计基于OpenAI Procgen基准测试,要求参赛者开发兼顾样本效率与泛化能力的RL模型,获胜团队采用改进的PPG算法,并分享了技术方案细节与评估结果。

NeurIPS强化学习挑战赛优胜者揭晓

某中心云服务赞助了本次挑战赛,并为参赛者提供了数据准备、处理以及模型训练、部署和测试所需的资源。

竞赛是年度NeurIPS会议计划的重要组成部分。今年共有16项竞赛入选,其中四分之一专注于推动深度强化学习(RL)的科学进展——智能体通过与环境进行试错探索来学习最大化奖励。近年来,强化学习在游戏、自动驾驶、电网管理等领域取得了突破性进展。某中心SageMaker RL团队与某机构合作,为Procgen挑战赛提供训练和评估支持。

赢得本次挑战赛需要参赛者开发新的RL模型,以最大化样本效率和泛化能力。某中心SageMaker RL团队开源了基于某机构Ray RLlib的入门笔记本,这是一个通过Ray分布式学习框架实现RL应用的库。这帮助参赛者更快地进行迭代;实际上,使用某中心SageMaker笔记本实例,参赛者只需花费几美元并在不到一小时内就能获得结果。

挑战赛设有泛化性和样本效率两个赛道,包含三轮比赛,吸引了82支团队的500多名参与者。参赛者可以选择参加一个或两个赛道。第一轮筛选出50支团队,第二轮确定了10支决赛队伍。在最后两轮比赛中,某机构运行了33,000个模型,生成了超过230,000个虚拟CPU小时和28,500个GPU小时。在整个比赛期间,使用某中心SageMaker评估了172,000个模型。

获胜团队

在上周五的NeurIPS深度强化学习虚拟研讨会上,公布了获胜者。祝贺泛化性赛道的两人团队Dipam Chakraborty和Nhat Quang Tran,以及样本效率赛道的两人团队Adrien Gaidon和Blake Wulfe。两支团队的解决方案均基于对阶段性策略梯度(PPG)算法的改进,这是一种新的强化学习算法,在保持策略和价值函数之间特征共享的同时,解耦了它们的训练。两支团队都使用了超参数调优来优化他们的方法。

Dipam和Quang对原始PPG算法进行了多项修改,使他们在从未见过的环境中学习泛化RL智能体方面取得了最佳性能。关于他们方法的更多细节可以在比赛演示视频中找到,而某机构托管了他们的评估视频和代码。

Adrien和Blake对PPG的修改包括在辅助阶段进行数据增强,但在策略阶段不进行。他们还尝试了奖励归一化和奖励塑造。他们的方法在样本效率方面取得了最佳性能,即使用最少的样本达到指定的奖励值。这使得他们的模型训练速度最快。他们的演示视频以及评估视频和代码也已在线发布。

作为赞助方,某中心云服务向顶级团队颁发了9,000美元现金和9,000美元云服务积分。

挑战赛背景

本次挑战赛由某机构与某研究组织合作设计,基于某研究组织的Procgen基准测试。设计者的目标之一是建立一个集中且易于访问的排行榜,以衡量RL中的样本效率和泛化能力。关于挑战赛设计的更多信息可在网上找到。

Procgen基准测试是一套16个程序生成的训练环境,提供了RL智能体学习可泛化技能速度的直接测量。智能体在这些环境的程序生成实例中进行评估,这些实例是公开可访问的,并且还有为比赛创建的四个秘密测试环境。通过汇总这么多不同环境的性能,我们获得了高质量的指标来评判底层算法。

由于每个Procgen环境都是程序生成的,它要求智能体泛化到从未见过的情况。因此,这些环境提供了对智能体在许多不同设置中学习能力的稳健测试。此外,Procgen环境设计为轻量级且易于使用。计算资源有限的参与者可以轻松复现基线结果并运行新实验。关于设计原则和单个环境细节的更多信息可以在论文《利用程序生成来基准测试强化学习》中找到。

某中心SageMaker RL团队感谢有机会赞助本次挑战赛。我们要再次祝贺所有参与者,特别是获胜者,并特别感谢某机构在支持比赛方面所扮演的角色。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计