强化学习游戏的分层空间结构与体积增长变换探索

Thu, 11 Sep 2025 14:14:05 +0800

摘要

本研究探索了基于Transformer的近端策略优化（PPO）模型在强化学习游戏中的嵌入空间结构。通过将Robinson等人针对大语言模型的体积增长变换方法适配至强化学习场景，发现视觉硬币收集游戏的令牌嵌入空间并非流形结构，而更适合建模为局部维度随点变化的分层空间。研究进一步证明广义体积增长曲线可通过分层空间实现，并分析表明智能体在行动时，其潜在表征会在低局部维度（固定子策略执行）和高局部维度（达成子目标或环境复杂度提升）之间交替变化。

分层空间 on 办公AI智能小助手

强化学习游戏的分层空间结构与体积增长变换探索

摘要