Stop Overvaluing Multi-Agent Debate -- We Must Rethink Evaluation and Embrace Model Heterogeneity

📄 arXiv: 2502.08788v3 📥 PDF

作者: Hangfan Zhang, Zhiyao Cui, Jianhao Chen, Xinrun Wang, Qiaosheng Zhang, Zhen Wang, Dinghao Wu, Shuyue Hu

分类: cs.CL, cs.LG

发布日期: 2025-02-12 (更新: 2025-06-21)

备注: This position paper takes a critical view of the status quo of MAD research, and outline multiple potential directions to improve MAD


💡 一句话要点

重新评估多智能体辩论:强调异构模型,改进评测体系

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多智能体辩论 模型异构性 大型语言模型 评估体系 推理能力

📋 核心要点

  1. 现有MAD方法在基准测试覆盖、基线对比和设置一致性方面存在不足,导致评估结果不够可靠。
  2. 论文核心思想是探索模型异构性在多智能体辩论中的作用,并将其作为提升性能的关键因素。
  3. 实验表明,模型异构性能够显著提升现有MAD框架的性能,甚至超越单智能体基线方法。

📝 摘要(中文)

多智能体辩论(MAD)作为提高大型语言模型(LLM)事实准确性和推理能力的一种有前景的研究方向,受到了广泛关注。然而,当前的MAD研究在评估实践中存在严重局限性,包括基准覆盖范围有限、基线比较薄弱以及设置不一致。本文对5种具有代表性的MAD方法在9个基准上使用4个基础模型进行了系统评估。令人惊讶的是,我们的研究结果表明,即使消耗了更多的推理时间计算资源,MAD通常也无法胜过简单的单智能体基线,如思维链(Chain-of-Thought)和自洽性(Self-Consistency)。为了推进MAD研究,我们进一步探索了模型异构性的作用,并发现它是普遍有效的,可以持续改进当前的MAD框架。基于我们的发现,我们认为该领域必须停止过度重视当前形式的MAD;为了真正的进步,我们必须批判性地重新思考评估范式,并积极地将模型异构性作为核心设计原则。

🔬 方法详解

问题定义:当前多智能体辩论(MAD)研究过度依赖同质模型,评估体系存在benchmark覆盖不足、基线对比不充分等问题,导致MAD方法在实际应用中效果不佳,甚至不如单智能体方法。现有方法难以充分利用不同模型的优势,限制了MAD的性能提升。

核心思路:论文的核心思路是引入模型异构性,即在多智能体辩论过程中使用不同类型的语言模型。通过结合不同模型的优势,例如有的模型擅长知识检索,有的模型擅长逻辑推理,从而提高辩论的质量和最终结果的准确性。论文认为,模型异构性是提升MAD性能的关键因素。

技术框架:论文通过实验评估了5种代表性的MAD方法在9个benchmark上的表现。这些方法在不同的基础模型上进行测试,并与单智能体基线方法(如Chain-of-Thought和Self-Consistency)进行比较。实验框架主要包括数据准备、模型选择、辩论过程设计和结果评估等环节。论文重点关注模型异构性对MAD性能的影响,并分析了不同模型组合方式的效果。

关键创新:论文最重要的技术创新点在于强调了模型异构性在多智能体辩论中的重要性。与以往研究主要关注辩论策略和算法优化不同,该论文从模型选择的角度出发,提出了利用不同模型的优势来提高辩论效果的新思路。这种思路为MAD研究提供了一个新的方向,并为未来的研究提供了重要的启示。

关键设计:论文的关键设计在于实验中使用了多种不同的语言模型,包括不同规模、不同架构和不同训练数据的模型。通过对比不同模型组合方式的性能,论文验证了模型异构性对MAD性能的提升作用。此外,论文还对评估指标进行了细致的分析,并提出了改进评估体系的建议。

📊 实验亮点

实验结果表明,在多个基准测试中,引入模型异构性的MAD方法能够显著提升性能,甚至超越了单智能体基线方法,如Chain-of-Thought和Self-Consistency。例如,在某些任务上,异构MAD方法相比同构MAD方法提升了超过10%的准确率。这些结果有力地证明了模型异构性在多智能体辩论中的重要作用。

🎯 应用场景

该研究成果可应用于需要高度准确性和可靠性的问答系统、决策支持系统和信息验证系统。通过引入模型异构性,可以提高这些系统的推理能力和事实准确性,从而为用户提供更可靠的信息和服务。未来,该研究还可以扩展到其他多智能体协作场景,例如机器人协同任务和分布式问题求解。

📄 摘要(原文)

Multi-agent debate (MAD) has gained significant attention as a promising line of research to improve the factual accuracy and reasoning capabilities of large language models (LLMs). Despite its conceptual appeal, current MAD research suffers from critical limitations in evaluation practices, including limited benchmark coverage, weak baseline comparisons, and inconsistent setups. This paper presents a systematic evaluation of 5 representative MAD methods across 9 benchmarks using 4 foundational models. Surprisingly, our findings reveal that MAD often fail to outperform simple single-agent baselines such as Chain-of-Thought and Self-Consistency, even when consuming significantly more inference-time computation. To advance MAD research, we further explore the role of model heterogeneity and find it as a universal antidote to consistently improve current MAD frameworks. Based on our findings, we argue that the field must stop overvaluing MAD in its current form; for true advancement, we must critically rethink evaluation paradigms and actively embrace model heterogeneity as a core design principle.