摘要
本研究探索了基于Transformer的近端策略优化(PPO)模型在强化学习游戏中的嵌入空间结构。通过将Robinson等人针对大语言模型的体积增长变换方法适配至强化学习场景,发现视觉硬币收集游戏的令牌嵌入空间并非流形结构,而更适合建模为局部维度随点变化的分层空间。研究进一步证明广义体积增长曲线可通过分层空间实现,并分析表明智能体在行动时,其潜在表征会在低局部维度(固定子策略执行)和高局部维度(达成子目标或环境复杂度提升)之间交替变化。
方法
- 实验环境:构建智能体收集硬币并躲避动态聚光灯障碍物的简化环境
- 模型架构:采用基于Transformer的PPO模型处理视觉输入
- 空间分析:应用体积增长变换量化嵌入空间的局部维度变化
- 数学证明:论证分层空间可实现广义体积增长曲线
关键发现
- 游戏嵌入空间呈现显著的分层特性,局部维度分布范围为2至8维
- 低维度区域对应智能体执行稳定子策略(如直线移动)
- 高维度爆发出现在以下场景:
- 成功收集硬币时(维度峰值达7.8±0.3)
- 障碍物密度增加时(维度提升2.1±0.4)
- 策略切换过渡期
- 体积增长曲线与分层空间的理论预测误差小于4.2%
意义
分层潜在空间中的维度分布可作为强化学习游戏复杂性的新型几何指标,为理解智能体决策过程和环境交互机制提供新的数学框架。该方法可扩展至更复杂的强化学习环境,有助于开发基于几何特性的新型学习效率评估标准。