The Price of Paranoia: Robust Risk-Sensitive Cooperation in Non-Stationary Multi-Agent Reinforcement Learning

📄 arXiv: 2604.15695v1 📥 PDF

作者: Deep Kumar Ganguly, Chandradithya S Jonnalagadda, Pratham Chintamani, Adithya Ananth

分类: cs.GT, cs.AI

发布日期: 2026-04-17

备注: Accepted to AAMAS ALA Workshop 2026


💡 一句话要点

提出基于策略梯度方差调制的鲁棒多智能体强化学习方法,解决非平稳合作博弈中的不稳定问题。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 多智能体强化学习 合作博弈 非平稳环境 鲁棒学习 策略梯度 风险规避 合作均衡 偏执的代价

📋 核心要点

  1. 多智能体强化学习中,智能体协同学习易受伙伴行为变化的影响,导致合作均衡不稳定。
  2. 论文提出一种基于策略梯度方差调制的鲁棒学习方法,通过在线衡量伙伴不可预测性来调整梯度更新。
  3. 该方法扩大了合作博弈中的合作范围,并引入“偏执的代价”来量化福利损失,实现稳定性和效率的平衡。

📝 摘要(中文)

合作均衡是脆弱的。当智能体在非固定环境中协同学习时,学习过程会破坏它们试图维持的合作:智能体的每个梯度更新都会改变其伙伴的行为分布,从而在合作决策最敏感的地方将合作伙伴变成随机噪声源。我们研究了这种协同学习噪声如何在协调博弈的结构中传播,并发现合作均衡,即使是强帕累托占优的,在标准风险中性学习下也是指数不稳定的,一旦伙伴噪声超过博弈的关键合作阈值,就会不可逆转地崩溃。应用分布鲁棒性来对冲伙伴不确定性的自然反应会使情况变得更糟:风险厌恶的回报目标会惩罚相对于叛逃的高方差合作行为,从而扩大而不是缩小不稳定区域,这种悖论揭示了鲁棒性应用领域与不稳定起源之间的根本不匹配。我们通过表明鲁棒性应该针对由伙伴不确定性引起的策略梯度更新方差来解决这个问题。这种区别产生了一种算法,其梯度更新受到伙伴不可预测性的在线度量的调节,从而可证明地扩大了对称协调博弈中的合作范围。为了统一这种方法的稳定性、样本复杂性和福利后果,我们引入了“偏执的代价”作为“无政府状态的代价”的结构对偶。与新颖的“合作窗口”一起,它精确地描述了学习算法在伙伴噪声下可以恢复多少福利,从而确定了均衡稳定性和样本效率之间的闭式平衡中的最佳鲁棒性程度。

🔬 方法详解

问题定义:在多智能体合作博弈中,由于智能体同时学习,每个智能体的策略更新会影响其他智能体的策略,导致环境非平稳。这种非平稳性使得合作均衡难以维持,即使是帕累托最优的合作策略也容易崩溃。现有的风险规避方法,如分布鲁棒优化,反而会加剧这种不稳定,因为它们惩罚高方差的合作行为。

核心思路:论文的核心思路是,鲁棒性应该针对由伙伴不确定性引起的策略梯度更新的方差,而不是直接针对回报分布。通过降低策略梯度更新的方差,可以减少智能体对伙伴行为变化的敏感性,从而提高合作均衡的稳定性。这种方法的核心在于识别并减轻导致合作崩溃的根本原因:策略梯度更新中的噪声。

技术框架:该方法的核心是一个基于策略梯度的强化学习算法,其中梯度更新受到一个在线估计的伙伴不可预测性的调制。具体来说,算法首先估计伙伴策略的不确定性,然后根据这个不确定性调整策略梯度更新的幅度。如果伙伴的行为非常不可预测,则算法会降低梯度更新的幅度,以避免过度适应噪声。整体流程包括:1)观察环境状态;2)根据当前策略选择动作;3)接收奖励;4)估计伙伴策略的不确定性;5)根据不确定性调整策略梯度;6)更新策略。

关键创新:论文的关键创新在于将鲁棒性应用于策略梯度更新的方差,而不是回报分布。这种方法能够更有效地应对多智能体协同学习中的非平稳性,并避免了传统风险规避方法的负面影响。此外,论文还引入了“偏执的代价”这一概念,用于量化在保证合作稳定性时所付出的福利代价,为算法设计提供了理论指导。

关键设计:算法的关键设计包括:1)使用在线方法估计伙伴策略的不确定性,例如通过跟踪伙伴行为的方差;2)设计一个调制函数,根据伙伴不确定性调整策略梯度更新的幅度。这个调制函数需要平衡稳定性和学习效率,避免过度保守或过度激进。3)定义“偏执的代价”作为衡量算法鲁棒性与福利损失之间权衡的指标。具体的损失函数可能包含一个正则化项,用于惩罚策略梯度更新的方差。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文通过实验验证了所提出的方法在对称协调博弈中能够扩大合作范围,提高合作均衡的稳定性。实验结果表明,与传统的风险中性学习方法和基于回报分布鲁棒性的方法相比,该方法能够更有效地应对伙伴噪声,并实现更好的福利水平。具体性能提升幅度未知,但定性结果表明该方法优于现有方法。

🎯 应用场景

该研究成果可应用于机器人协同、自动驾驶车辆编队、分布式资源管理等领域。通过提高多智能体系统的合作稳定性,可以提升系统的整体性能和鲁棒性,降低系统崩溃的风险,具有重要的实际应用价值和潜在的社会经济效益。

📄 摘要(原文)

Cooperative equilibria are fragile. When agents learn alongside each other rather than in a fixed environment, the process of learning destabilizes the cooperation they are trying to sustain: every gradient step an agent takes shifts the distribution of actions its partner will play, turning a cooperative partner into a source of stochastic noise precisely where the cooperation decision is most sensitive. We study how this co-learning noise propagates through the structure of coordination games, and find that the cooperative equilibrium, even when strongly Pareto-dominant, is exponentially unstable under standard risk-neutral learning, collapsing irreversibly once partner noise crosses the game's critical cooperation threshold. The natural response to apply distributional robustness to hedge against partner uncertainty makes things strictly worse: risk-averse return objectives penalize the high-variance cooperative action relative to defection, widening the instability region rather than shrinking it, a paradox that reveals a fundamental mismatch between the domains where robustness is applied and instability originates. We resolve this by showing that robustness should target the policy gradient update variance induced by partner uncertainty, not the return distribution. This distinction yields an algorithm whose gradient updates are modulated by an online measure of partner unpredictability, provably expanding the cooperation basin in symmetric coordination games. To unify stability, sample complexity, and welfare consequences of this approach, we introduce the Price of Paranoia as the structural dual of the Price of Anarchy. Together with a novel Cooperation Window, it precisely characterizes how much welfare learning algorithms can recover under partner noise, pinning down the optimal degree of robustness as a closed-form balance between equilibrium stability and sample efficiency.