Memory Gym:面向无限任务的智能体记忆能力基准测试框架
摘要
Memory Gym提出了一套二维部分可观测环境(包括Mortar Mayhem、Mystery Path和Searing Spotlights),用于基准测试决策智能体的记忆能力。这些环境最初采用有限任务设计,现扩展为创新的无限格式,模拟了累积记忆游戏(如“I packed my bag”)中逐步升级的挑战。这种任务设计的进展将评估重点从单纯的样本效率转向探究动态长期场景中的记忆有效性水平。
为解决现有基于记忆的深度强化学习基线不足的问题,我们在开源CleanRL库中实现了Transformer-XL(TrXL)与近端策略优化(PPO)的集成方案。该方法采用TrXL作为情景记忆的一种形式,并运用滑动窗口技术。我们通过门控循环单元(GRU)与TrXL的对比研究发现,两者在有限和无限任务中表现出不同性能特征:在有限环境中,仅当使用重构观测的辅助损失时,TrXL才展现出优于GRU的有效性;而值得注意的是,GRU在所有无限任务中显著反超,始终以明显优势超越TrXL。
网站与源代码:https://marcometer.github.io/jmlr_2024.github.io/