<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
  <channel>
    <title>多智能体强化学习 on 办公AI智能小助手</title>
    <link>https://blog.qife122.com/tags/%E5%A4%9A%E6%99%BA%E8%83%BD%E4%BD%93%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0/</link>
    <description>Recent content in 多智能体强化学习 on 办公AI智能小助手</description>
    <generator>Hugo</generator>
    <language>zh-cn</language>
    <copyright>qife</copyright>
    <lastBuildDate>Wed, 10 Sep 2025 11:28:21 +0800</lastBuildDate>
    <atom:link href="https://blog.qife122.com/tags/%E5%A4%9A%E6%99%BA%E8%83%BD%E4%BD%93%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0/index.xml" rel="self" type="application/rss+xml" />
    <item>
      <title>团队竞争游戏中广义虚拟交叉博弈的全局纳什均衡学习</title>
      <link>https://blog.qife122.com/p/%E5%9B%A2%E9%98%9F%E7%AB%9E%E4%BA%89%E6%B8%B8%E6%88%8F%E4%B8%AD%E5%B9%BF%E4%B9%89%E8%99%9A%E6%8B%9F%E4%BA%A4%E5%8F%89%E5%8D%9A%E5%BC%88%E7%9A%84%E5%85%A8%E5%B1%80%E7%BA%B3%E4%BB%80%E5%9D%87%E8%A1%A1%E5%AD%A6%E4%B9%A0/</link>
      <pubDate>Wed, 10 Sep 2025 11:28:21 +0800</pubDate>
      <guid>https://blog.qife122.com/p/%E5%9B%A2%E9%98%9F%E7%AB%9E%E4%BA%89%E6%B8%B8%E6%88%8F%E4%B8%AD%E5%B9%BF%E4%B9%89%E8%99%9A%E6%8B%9F%E4%BA%A4%E5%8F%89%E5%8D%9A%E5%BC%88%E7%9A%84%E5%85%A8%E5%B1%80%E7%BA%B3%E4%BB%80%E5%9D%87%E8%A1%A1%E5%AD%A6%E4%B9%A0/</guid>
      <description>&lt;h1 id=&#34;学习团队竞争游戏中广义虚拟交叉博弈的全局纳什均衡&#34;&gt;学习团队竞争游戏中广义虚拟交叉博弈的全局纳什均衡&lt;/h1&gt;&#xA;&lt;p&gt;&lt;strong&gt;摘要&lt;/strong&gt;&lt;/p&gt;&#xA;&lt;p&gt;自我博弈(SP)是竞争性游戏中流行的多智能体强化学习框架。尽管在实证中取得成功，但SP的理论特性仅限于双玩家设置。对于两个合作智能体团队相互竞争的团队竞争游戏，研究展示了一个反例：SP无法以高概率收敛到全局纳什均衡(NE)。&lt;/p&gt;</description>
    </item>
  </channel>
</rss>
