RUMAD: Reinforcement-Unifying Multi-Agent Debate

📄 arXiv: 2602.23864v1 📥 PDF

作者: Chao Wang, Han Lin, Huaze Tang, Huijing Lin, Wenbo Ding

分类: cs.AI

发布日期: 2026-02-27

备注: 13 pages, 3 figures


💡 一句话要点

RUMAD:提出基于强化学习的多智能体辩论框架,提升效率与泛化性

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 多智能体辩论 强化学习 动态拓扑 通信策略 零样本泛化 推理效率 PPO算法

📋 核心要点

  1. 现有MAD方法在准确性、共识和效率间难以平衡,静态拓扑适应性差,LLM协调可能引入偏见。
  2. RUMAD将动态通信拓扑控制建模为强化学习问题,通过内容无关观察和多目标奖励优化辩论。
  3. 实验表明RUMAD显著降低token成本,提升推理准确性,并展现出良好的零样本泛化能力。

📝 摘要(中文)

多智能体辩论(MAD)系统利用集体智能来增强推理能力,但现有方法难以同时优化准确性、共识形成和计算效率。静态拓扑方法缺乏对任务复杂性变化的适应性,而基于外部LLM的协调可能引入特权知识,从而损害辩论的中立性。本文提出了RUMAD(Reinforcement-Unifying Multi-Agent Debate),这是一种新颖的框架,它将MAD中动态通信拓扑控制建模为一个强化学习(RL)问题。RUMAD采用了一种内容无关的观察方案,该方案捕获了高级辩论动态,避免访问原始智能体推理内容。RUMAD使用多目标奖励来建模解决方案质量、内聚性和效率。一个PPO训练的控制器动态地调整通信图中的边权重,而双阈值机制能够对智能体激活和信息可见性进行细粒度控制。在MMLU、GSM8K和GPQA基准上的实验评估表明,RUMAD实现了显著的效率提升,降低了超过80%的token成本,同时仍然提高了推理准确性,优于单个LLM模型和多个MAD基线。值得注意的是,仅在MMLU上训练的RUMAD表现出对领域外(OOD)任务的强大零样本泛化能力,表明学习到的通信策略捕获了有效多智能体协调的任务独立原则。这些结果确立了RUMAD作为一种高效且鲁棒的方法,用于在实际资源约束下部署多智能体推理应用。

🔬 方法详解

问题定义:现有Multi-Agent Debate (MAD) 方法面临效率、准确性和中立性之间的权衡。静态通信拓扑无法适应不同复杂度的任务,而依赖外部大型语言模型(LLM)进行协调可能引入额外的知识,影响辩论的公平性。因此,如何设计一个既能高效利用计算资源,又能保证辩论质量和公平性的MAD系统是一个挑战。

核心思路:RUMAD的核心思路是将MAD中的通信拓扑控制问题转化为一个强化学习(RL)问题。通过学习动态调整智能体之间的通信连接,RUMAD能够根据辩论的进展和任务的难度,自适应地优化信息传递的效率和质量。这种方法避免了静态拓扑的局限性,也无需依赖外部LLM进行协调,从而保证了辩论的中立性。

技术框架:RUMAD的整体框架包括以下几个主要模块:1) 智能体:负责进行推理和辩论;2) 通信图:定义智能体之间的连接关系;3) 强化学习控制器:根据辩论状态动态调整通信图的边权重;4) 奖励函数:用于评估辩论的质量、效率和内聚性。整个流程如下:智能体进行辩论,强化学习控制器观察辩论状态,根据观察结果调整通信图,智能体根据新的通信图继续辩论,最终根据辩论结果计算奖励,用于训练强化学习控制器。

关键创新:RUMAD的关键创新在于将动态通信拓扑控制问题建模为一个强化学习问题,并设计了一种内容无关的观察方案。这种观察方案只关注辩论的高级动态,避免直接访问智能体的推理内容,从而保证了辩论的中立性。此外,RUMAD还采用了多目标奖励函数,同时优化辩论的质量、效率和内聚性。

关键设计:RUMAD使用PPO算法训练强化学习控制器,控制器输出通信图中边的权重。采用双阈值机制来控制智能体的激活和信息可见性。奖励函数包括三个部分:准确性奖励、内聚性奖励和效率奖励。准确性奖励鼓励智能体得出正确的结论,内聚性奖励鼓励智能体达成共识,效率奖励惩罚过多的token使用。具体参数设置未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

RUMAD在MMLU、GSM8K和GPQA基准测试中表现出色,相较于单LLM模型和多个MAD基线,在提高推理准确性的同时,token成本降低超过80%。更重要的是,仅在MMLU上训练的RUMAD展现出强大的零样本泛化能力,能够有效处理领域外的任务,证明了其学习到的通信策略具有任务独立性。

🎯 应用场景

RUMAD具有广泛的应用前景,可用于构建高效、公平的多智能体推理系统,例如:辅助决策、科学研究、教育辅导等。该研究有助于在资源受限的环境下部署复杂的AI应用,并促进人与AI之间的协作,提升决策质量和效率。未来,RUMAD可以扩展到更复杂的任务和场景,例如:多智能体博弈、分布式优化等。

📄 摘要(原文)

Multi-agent debate (MAD) systems leverage collective intelligence to enhance reasoning capabilities, yet existing approaches struggle to simultaneously optimize accuracy, consensus formation, and computational efficiency. Static topology methods lack adaptability to task complexity variations, while external LLM-based coordination risks introducing privileged knowledge that compromises debate neutrality. This work presents RUMAD (Reinforcement-Unifying Multi-Agent Debate), a novel framework that formulates dynamic communication topology control in MAD as a reinforcement learning (RL) problem. RUMAD employs a content-agnostic observation scheme that captures high-level debate dynamics avoiding access to raw agent reasoning content. RUMAD uses a multi-objective reward to model solution quality, cohesion and efficiency. A PPO-trained controller dynamically adjusts edge weights in the communication graph, while a dual-threshold mechanism enables fine-grained control over both agent activation and information visibility. Experimental evaluation across MMLU, GSM8K, and GPQA benchmarks demonstrates that RUMAD achieves substantial efficiency gains, reducing token costs by over 80\%, while still improving reasoning accuracy compared to single LLM model and multiple MAD baselines. Notably, RUMAD trained exclusively on MMLU exhibits robust zero-shot generalization to out-of-domain (OOD) tasks, indicating that the learned communication strategies capture task-independent principles of effective multi-agent coordination. These results establish RUMAD as a efficient and robust approach for deploying multi-agent reasoning application with practical resource constraints.