多智能体强化学习应对不确定世界

通过新方法，智能体能够更好地应对模拟训练环境与现实部署环境之间的差异。

会议：NeurIPS 2020

相关出版物：具有模型不确定性的鲁棒多智能体强化学习

强化学习（RL）是人工智能领域的热门话题，智能体通过试错探索环境来学习最大化奖励。近年来，它在机器人技术、自动驾驶和游戏玩法等领域取得了突破性进展。

通常，RL智能体在进入现实世界之前会在模拟环境中进行训练。但模拟很少是完美的，如果智能体不知道如何明确建模其对世界的不确定性，在训练环境之外往往会表现不佳。

在单智能体RL中，这种不确定性已得到很好处理。但在多智能体RL（MARL）中，这方面的探索还不够深入，MARL涉及多个智能体通过与环境及其他智能体互动来优化各自的长期奖励。

在我们于第34届神经信息处理系统会议上发表的论文中，我们提出了一个对模型可能不确定性具有鲁棒性的MARL框架。在使用先进系统作为基准的实验中，我们的方法在更高不确定性下积累了更多奖励。

例如，在协作导航任务中（三个智能体定位并占据三个不同的地标），当不确定性较高时，我们的鲁棒MARL智能体表现显著优于先进系统。在捕食者-猎物环境中（捕食者智能体试图"捕捉"猎物智能体），无论作为捕食者还是猎物，我们的鲁棒MARL智能体都优于基线智能体。

马尔可夫博弈

强化学习通常使用称为马尔可夫决策过程的顺序决策过程建模，该过程包含几个组件：状态空间、动作空间、转移动态和奖励函数。

在每个时间步，智能体根据转移概率采取行动并转换到新状态。每个行动都会产生奖励或惩罚。通过尝试行动序列，智能体开发出一组优化其累积奖励的策略。

马尔可夫博弈将此模型推广到多智能体设置。在马尔可夫博弈中，状态转移是多个智能体采取多个行动的结果，每个智能体都有自己的奖励函数。

为了最大化其累积奖励，给定智能体必须不仅导航环境，还要导航其同伴智能体的行动。因此，除了学习自己的策略集外，它还试图推断其他智能体的策略。

然而，在许多实际应用中，完美信息是不可能的。如果多辆自动驾驶汽车共享道路，没有一辆能确切知道其他车辆正在最大化什么奖励或联合转移模型是什么。在这种情况下，给定智能体采取的策略应该对MARL模型可能的不确定性具有鲁棒性。

在我们论文提出的框架中，每个玩家考虑一个无分布马尔可夫博弈——描述环境的概率分布未知的游戏。因此，玩家不寻求学习特定的奖励和状态值，而是学习可能值的范围，称为不确定性集。使用不确定性集意味着玩家不需要用另一个概率分布明确建模其不确定性。

我们将不确定性视为对抗性智能体——自然，其策略旨在为其他智能体在每个状态产生最坏情况的模型数据。将不确定性视为另一个玩家允许我们为游戏定义鲁棒马尔可夫完美纳什均衡：一组策略，使得——给定模型可能的不确定性——没有玩家有单方面改变其策略的动机。

为了证明这种对抗方法的效用，我们首先提出使用基于Q学习的算法，该算法在某些条件下保证收敛到纳什均衡。Q学习是一种无模型RL算法，意味着它不需要学习显式转移概率和奖励函数。相反，它试图学习每个状态中每组行动的预期累积奖励。

然而，如果可能状态和行动的空间变得足够大，学习所有状态中所有行动的累积奖励变得不切实际。替代方案是使用函数逼近来估计状态值和策略，但将函数逼近集成到Q学习中很困难。

因此，在我们的论文中，我们还开发了基于策略梯度/行动者-评论家的鲁棒MARL算法。该算法不提供与Q学习相同的收敛保证，但使使用函数逼近更容易。

这是我们在实验中使用的MARL框架。我们在各种标准MARL任务上测试了我们的方法：协作导航、保持距离、物理欺骗和捕食者-猎物环境，与两个先进系统进行比较，一个为对抗设置设计，一个不是。

在具有现实不确定性程度的设置中，我们的方法在所有方面都优于其他方法。

机器学习