分布式Q学习的有限时间分析技术解析

Sat, 20 Sep 2025 01:54:41 +0800

分布式Q学习的有限时间分析

摘要

多智能体强化学习（MARL）近年来受到广泛关注，这主要得益于单智能体强化学习（RL）在实际应用中的成功。本研究探讨了分布式Q学习场景，其中多个智能体协作解决顺序决策问题，且无法访问中心奖励函数（该函数是局部奖励的平均值）。特别地，我们分析了分布式Q学习算法的有限时间性能，并提出了新的样本复杂度结果：在表格查找设置下，达到$\tilde{\mathcal{O}}\left( \min\left{\frac{1}{\epsilon^2}\frac{t_{\text{mix}}}{(1-\gamma)^6 d_{\min}^4 } ,\frac{1}{\epsilon}\frac{\sqrt{|\gS||\gA|}}{(1-\sigma_2(\boldsymbol{W}))(1-\gamma)^4 d_{\min}^3} \right}\right)$的复杂度界限。

Q学习算法 on 办公AI智能小助手

分布式Q学习的有限时间分析技术解析

分布式Q学习的有限时间分析

摘要