多目标强化学习中的帕累托平稳探索新方法

本文提出了一种多目标加权切比雪夫演员-评论家(MOCHA)算法,用于解决多目标强化学习中的帕累托平稳探索问题。该算法整合加权切比雪夫标量化与演员-评论家框架,在理论有限时间样本复杂度保证下系统探索非凸奖励目标,并在大规模离线数据集上显著优于基线方法。

摘要

在多目标强化学习(MORL)应用中,系统性地探索具有理论有限时间样本复杂度保证的多非凸奖励目标下的帕累托平稳解是一个重要但尚未充分探索的问题。这促使我们迈出第一步,填补MORL中的重要空白。

具体而言,本文提出了一种多目标加权切比雪夫演员-评论家(MOCHA)算法用于MORL。该算法明智地整合了加权切比雪夫(WC)标量化与演员-评论家框架,以系统性地实现具有有限时间样本复杂度保证的帕累托平稳探索。

MOCHA算法的样本复杂度结果揭示了在寻找ε-帕累托平稳解时对p_min的有趣依赖关系,其中p_min表示WC标量化中给定权重向量p的最小条目。通过仔细选择学习率,每次探索的样本复杂度可达(\tilde{\mathcal{O}}(\epsilon^{-2}))。

此外,基于大规模KuaiRand离线数据集的仿真研究表明,MOCHA算法的性能显著优于其他基线MORL方法。

主题分类

  • 机器学习(cs.LG)

引用信息

arXiv:2507.21397 [cs.LG]

提交历史

2025年7月29日提交

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计