演员-评论家算法 on 办公AI智能小助手

演员-评论家算法 on 办公AI智能小助手 https://blog.qife122.com/tags/%E6%BC%94%E5%91%98-%E8%AF%84%E8%AE%BA%E5%AE%B6%E7%AE%97%E6%B3%95/ Recent content in 演员-评论家算法 on 办公AI智能小助手 Hugo zh-cn qife Sat, 13 Sep 2025 17:46:21 +0800 多目标强化学习中的帕累托平稳探索新方法 https://blog.qife122.com/p/%E5%A4%9A%E7%9B%AE%E6%A0%87%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0%E4%B8%AD%E7%9A%84%E5%B8%95%E7%B4%AF%E6%89%98%E5%B9%B3%E7%A8%B3%E6%8E%A2%E7%B4%A2%E6%96%B0%E6%96%B9%E6%B3%95/ Sat, 13 Sep 2025 17:46:21 +0800 https://blog.qife122.com/p/%E5%A4%9A%E7%9B%AE%E6%A0%87%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0%E4%B8%AD%E7%9A%84%E5%B8%95%E7%B4%AF%E6%89%98%E5%B9%B3%E7%A8%B3%E6%8E%A2%E7%B4%A2%E6%96%B0%E6%96%B9%E6%B3%95/ <h2 id="摘要">摘要</h2> <p>在多目标强化学习（MORL）应用中，系统性地探索具有理论有限时间样本复杂度保证的多非凸奖励目标下的帕累托平稳解是一个重要但尚未充分探索的问题。这促使我们迈出第一步，填补MORL中的重要空白。</p>