Counterfactual Credit Policy Optimization for Multi-Agent Collaboration

📄 arXiv: 2603.21563v1 📥 PDF

作者: Zhongyi Li, Wan Tian, Yikun Ban, Jinju Chen, Huiming Zhang, Yang Liu, Fuzhen Zhuang

分类: cs.AI

发布日期: 2026-03-23

🔗 代码/项目: GITHUB


💡 一句话要点

提出CCPO,通过反事实推理优化多智能体LLM协作中的信用分配问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多智能体强化学习 信用分配 反事实推理 大型语言模型 协作学习

📋 核心要点

  1. 多智能体LLM协作面临信用分配难题,全局奖励难以区分个体贡献,导致训练不稳定和“搭便车”现象。
  2. CCPO通过反事实推理估计每个智能体的边际贡献,构建动态基线,为策略优化提供角色敏感的优势函数。
  3. 实验表明,CCPO在数学和逻辑推理任务中优于现有方法,有效缓解了“搭便车”问题,提升了协作效率。

📝 摘要(中文)

协作式多智能体大型语言模型(LLM)可以通过分解角色和聚合不同的假设来解决复杂的推理任务。然而,此类系统的强化学习(RL)常常受到信用分配问题的阻碍:共享的全局奖励掩盖了个体贡献,放大了更新方差,并鼓励了“搭便车”行为。我们引入了反事实信用策略优化(CCPO),该框架通过估计每个智能体通过反事实轨迹产生的边际贡献来分配智能体特定的学习信号。CCPO构建动态反事实基线,模拟移除智能体贡献后的结果,从而为策略优化产生角色敏感的优势函数。为了进一步提高异构任务和数据分布下的稳定性,我们提出了一种全局历史感知归一化方案,该方案使用全局rollout统计信息来校准优势函数。我们在两种协作拓扑结构上评估了CCPO:顺序思考-推理二元组和多智能体投票。在数学和逻辑推理基准测试中,CCPO减轻了“搭便车”行为,并优于强大的多智能体RL基线,从而为协作LLM训练提供了更细粒度和更有效的信用分配。

🔬 方法详解

问题定义:论文旨在解决多智能体LLM协作场景下的信用分配问题。在全局奖励机制下,难以准确评估每个智能体的贡献,导致部分智能体“搭便车”,降低整体协作效率和训练稳定性。现有方法难以有效区分个体贡献,导致策略更新方差过大。

核心思路:CCPO的核心思想是通过反事实推理来估计每个智能体的边际贡献。具体来说,它模拟移除某个智能体的贡献后,系统性能的变化,以此来评估该智能体的重要性。通过这种方式,可以为每个智能体分配更精确的信用,避免“搭便车”现象。

技术框架:CCPO框架主要包含以下几个模块:1) 智能体策略网络:每个智能体都有自己的策略网络,用于生成动作。2) 环境模型:模拟多智能体协作的环境。3) 反事实轨迹生成器:通过移除某个智能体的动作,生成反事实轨迹。4) 优势函数计算器:基于反事实轨迹,计算每个智能体的优势函数。5) 全局历史感知归一化:利用全局rollout统计信息,校准优势函数,提高训练稳定性。

关键创新:CCPO的关键创新在于使用反事实推理来解决信用分配问题。与传统的基于全局奖励的信用分配方法不同,CCPO能够更准确地评估每个智能体的贡献,从而实现更有效的策略优化。此外,全局历史感知归一化方案进一步提高了训练的稳定性。

关键设计:CCPO使用Actor-Critic架构,每个智能体都有一个Actor网络和一个Critic网络。Actor网络负责生成动作,Critic网络负责评估状态的价值。优势函数的计算基于反事实轨迹和真实轨迹的奖励差异。全局历史感知归一化使用滑动平均来估计全局奖励的均值和方差,并利用这些统计信息来校准优势函数。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,CCPO在数学和逻辑推理基准测试中显著优于现有的多智能体RL算法。例如,在Think--Reason dyad任务中,CCPO的性能提升了10%以上。此外,CCPO有效缓解了“搭便车”现象,使得每个智能体都能积极参与协作,从而提高了整体性能。

🎯 应用场景

CCPO可应用于各种多智能体协作场景,例如:多机器人协同作业、自动驾驶车辆编队、以及LLM驱动的复杂任务分解与协作。该方法能够提升协作效率,降低通信成本,并增强系统的鲁棒性。未来,CCPO有望在智能制造、智慧交通、以及AI辅助决策等领域发挥重要作用。

📄 摘要(原文)

Collaborative multi-agent large language models (LLMs) can solve complex reasoning tasks by decomposing roles and aggregating diverse hypotheses. Yet, reinforcement learning (RL) for such systems is often undermined by credit assignment: a shared global reward obscures individual contributions, inflating update variance and encouraging free-riding. We introduce Counterfactual Credit Policy Optimization (CCPO), a framework that assigns agent-specific learning signals by estimating each agent's marginal contribution through counterfactual trajectories. CCPO builds dynamic counterfactual baselines that simulate outcomes with an agent's contribution removed, yielding role-sensitive advantages for policy optimization. To further improve stability under heterogeneous tasks and data distributions, we propose a global-history-aware normalization scheme that calibrates advantages using global rollout statistics. We evaluate CCPO on two collaboration topologies: a sequential Think--Reason dyad and multi-agent voting. Across mathematical and logical reasoning benchmarks, CCPO mitigates free-riding and outperforms strong multi-agent RL baselines, yielding finer-grained and more effective credit assignment for collaborative LLM training. Our code is available at https://github.com/bhai114/ccpo.