NeurIPS强化学习挑战赛冠军揭晓

本文介绍了NeurIPS 2020强化学习挑战赛的详细情况,包括某中心云服务提供的技术支持、比赛采用的Procgen基准测试环境、获胜团队的算法改进方案,以及比赛过程中使用的分布式训练框架和超参数调优技术。

NeurIPS强化学习挑战赛冠军揭晓

竞赛是年度NeurIPS会议的重要组成部分。今年共接受了16项竞赛,其中四分之一专注于推动深度强化学习(RL)的科学进展。强化学习通过智能体在环境中进行试错探索来学习最大化奖励,近年来在游戏、自动驾驶、电网管理等领域取得突破性进展。

比赛技术支持

某中心云服务赞助了本次Procgen挑战赛,并为参赛者提供了数据准备、处理以及模型训练、部署和测试所需的资源。比赛组织方开源了基于Ray RLlib的入门笔记本,这是一个使用Ray分布式学习框架实现RL应用的库。借助某中心SageMaker笔记本实例,参赛者可在不到一小时内以几美元的成本获得结果。

比赛赛制

挑战赛设有泛化性和样本效率两个赛道,包含三轮竞赛,吸引了82支团队的500多名参与者。首轮筛选出50支团队,第二轮确定10支决赛队伍。在最后两轮中,竞赛平台运行了33,000个模型,累计生成超过23万虚拟CPU小时和2.85万GPU小时。整个比赛期间使用某中心SageMaker评估了17.2万个模型。

获胜团队技术方案

在泛化性赛道获胜的团队对阶段性策略梯度(PPG)算法进行了多项改进,实现了在未见过的环境中学习的最佳性能。样本效率赛道获胜团队则在PPG算法的辅助阶段引入数据增强(但策略阶段不使用),并尝试了奖励归一化和奖励塑造技术,实现了用最少样本达到指定奖励值的最佳效果。

技术背景

比赛基于OpenAI Procgen基准测试套件,包含16个程序化生成的训练环境,可直接测量RL智能体学习可泛化技能的速度。每个环境都通过程序化生成,要求智能体泛化到未见过的情境,从而可靠测试其在多样化场景中的学习能力。该环境设计轻量且易于使用,计算资源有限的参与者也能轻松复现基线结果。

获胜团队均采用超参数调优来优化其方法,具体技术细节可通过竞赛平台获取其演示视频和代码。作为赞助方,某中心云服务为顶级团队提供了9000美元现金和等值的云服务积分。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计