Wasserstein-Barycenter Consensus for Cooperative Multi-Agent Reinforcement Learning

📄 arXiv: 2506.12497v2 📥 PDF

作者: Ali Baheri

分类: eess.SY

发布日期: 2025-06-14 (更新: 2025-06-18)


💡 一句话要点

提出基于Wasserstein重心一致性的合作多智能体强化学习方法,解决异构策略对齐问题。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 多智能体强化学习 合作学习 Wasserstein重心 Sinkhorn散度 策略对齐

📋 核心要点

  1. 现有合作MARL方法难以在策略对齐和个体专长之间取得平衡,容易导致次优的团队表现。
  2. 该论文提出基于Wasserstein重心的共识框架,通过Sinkhorn散度惩罚鼓励智能体策略向团队策略靠拢。
  3. 实验表明,该方法在合作导航任务中,相比独立学习,收敛速度更快,最终协调效果更好。

📝 摘要(中文)

合作多智能体强化学习(MARL)需要有效的机制来对齐异构策略,同时保留专门行为的能力。本文提出了一种新的共识框架,该框架将团队策略定义为智能体联合状态-动作访问度量的熵正则化$p$-Wasserstein重心。通过使用与Sinkhorn散度成比例的软惩罚来增强每个智能体的策略目标,所提出的方法鼓励连贯的群体行为,而无需强制执行严格的参数共享。本文推导了一种在Sinkhorn重心计算和策略梯度更新之间交替的算法,并证明在标准的Lipschitz和紧致性假设下,最大成对策略差异以几何速率收缩。在合作导航案例研究中的经验评估表明,本文的OT-重心一致性在收敛速度和最终协调成功方面优于独立学习者基线。

🔬 方法详解

问题定义:合作多智能体强化学习中,如何让多个智能体在异构策略下有效协作是一个关键问题。简单地共享参数可能限制个体智能体的专长,而独立学习则难以保证团队的整体性能。现有的方法往往难以在策略对齐和个体专长之间取得良好的平衡,导致次优的团队表现。

核心思路:该论文的核心思路是将团队策略定义为所有智能体策略的Wasserstein重心。Wasserstein重心能够捕捉多个分布的共同特征,并生成一个代表性的分布。通过鼓励每个智能体的策略向这个重心靠拢,可以实现策略对齐,同时允许个体智能体保留一定的差异性,从而保持专长。

技术框架:整体框架包含两个主要步骤:Sinkhorn重心计算和策略梯度更新。首先,使用Sinkhorn算法计算所有智能体策略的Wasserstein重心,得到团队策略的估计。然后,每个智能体使用策略梯度方法更新自己的策略,同时添加一个软惩罚项,该惩罚项与智能体策略和Wasserstein重心之间的Sinkhorn散度成比例。这两个步骤交替进行,直到策略收敛。

关键创新:该方法最重要的创新点在于使用Wasserstein重心来定义团队策略,并使用Sinkhorn散度作为策略对齐的度量。Wasserstein距离能够有效地度量概率分布之间的差异,并且Sinkhorn算法提供了一种高效的计算Wasserstein距离的方法。此外,使用软惩罚项鼓励策略对齐,避免了强制性的参数共享,从而更好地平衡了策略对齐和个体专长。

关键设计:关键设计包括:1) 使用熵正则化的Wasserstein重心,以提高计算的稳定性;2) 使用Sinkhorn算法计算Wasserstein重心和Sinkhorn散度;3) 将Sinkhorn散度作为软惩罚项添加到每个智能体的策略目标中,惩罚系数需要仔细调整以平衡策略对齐和个体专长;4) 使用策略梯度方法更新智能体策略。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在合作导航任务中,相比于独立学习的基线方法,收敛速度更快,并且能够达到更高的协调成功率。具体而言,该方法能够更快地学习到有效的协作策略,并且最终的团队性能明显优于独立学习方法。这验证了Wasserstein重心一致性在合作多智能体强化学习中的有效性。

🎯 应用场景

该研究成果可应用于各种需要多智能体协作的场景,例如:自动驾驶车辆编队、机器人协同搬运、多无人机协同搜索与救援、以及智能交通控制等。通过该方法,可以有效地提高多智能体系统的协作效率和整体性能,使其在复杂环境中更好地完成任务。

📄 摘要(原文)

Cooperative multi-agent reinforcement learning (MARL) demands principled mechanisms to align heterogeneous policies while preserving the capacity for specialized behavior. We introduce a novel consensus framework that defines the team strategy as the entropic-regularized $p$-Wasserstein barycenter of agents' joint state--action visitation measures. By augmenting each agent's policy objective with a soft penalty proportional to its Sinkhorn divergence from this barycenter, the proposed approach encourages coherent group behavior without enforcing rigid parameter sharing. We derive an algorithm that alternates between Sinkhorn-barycenter computation and policy-gradient updates, and we prove that, under standard Lipschitz and compactness assumptions, the maximal pairwise policy discrepancy contracts at a geometric rate. Empirical evaluation on a cooperative navigation case study demonstrates that our OT-barycenter consensus outperforms an independent learners baseline in convergence speed and final coordination success.