统计场理论用于不确定性下的马尔可夫决策过程

摘要

针对参数未知的有限状态和动作马尔可夫决策过程（MDP），在贝叶斯框架下引入统计场理论。研究有限时段和折现无限时段问题中用于策略评估和最优值函数的贝尔曼方程，将其视为无序交互动力系统。其中MDP转移概率和平均奖励被解释为淬火随机变量，而值函数或贝尔曼方程的迭代项则是动态演化的确定性变量。

值函数的后验分布等价于Martin-Siggia-Rose-De Dominicis-Janssen生成函数傅里叶逆的淬火平均。该形式体系支持使用场论方法计算值函数的后验矩。论文提出两种对应不同渐近极限的方法：首先应用经典近似（对应渐近数据极限），该近似恢复了值函数均值的所谓插件估计量；其次推导动态平均场理论，表明在特定假设下，状态-动作值在渐近状态空间极限中跨状态-动作对统计独立。

状态-动作值统计量可通过一组自洽的平均场方程计算，称为动态平均场编程（DMFP）。这些结果为理解MDP中模型不确定性的结构提供解析视角，并为发展更先进的场论技术及在规划与强化学习中的应用铺平道路。

[摘要][PDF][文献引用]