M3MAD-Bench: Are Multi-Agent Debates Really Effective Across Domains and Modalities?

作者: Ao Li, Jinghui Zhang, Luyu Li, Yuxiang Duan, Lang Gao, Mingcai Chen, Weijun Qin, Shaopeng Li, Fengxian Ji, Ning Liu, Lizhen Cui, Xiuying Chen, Yuntao Du

分类: cs.AI

发布日期: 2026-01-06

🔗 代码/项目: GITHUB

💡 一句话要点

M3MAD-Bench：多智能体辩论在跨领域和跨模态场景下的有效性评估基准

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多智能体辩论 跨领域评估 多模态学习 基准测试 自然语言处理 计算机视觉 复杂推理

📋 核心要点

现有MAD研究缺乏统一的评估标准，导致不同方法难以公平比较，且主要集中在单模态文本输入上。
M3MAD-Bench通过构建跨领域、跨模态和多维度指标的统一基准，系统评估MAD方法的性能。
实验结果揭示了MAD在不同模态下的有效性、鲁棒性和效率，为未来研究提供了可靠的参考。

📝 摘要（中文）

多智能体辩论（MAD）作为一种智能体层面的推理和协调范式，通过组织多个智能体进行结构化辩论来提高答案质量并支持复杂推理。然而，现有的MAD研究存在两个根本性局限：评估是在分散且不一致的环境下进行的，阻碍了公平比较；并且主要局限于仅依赖文本输入的单模态场景。为了解决这些问题，我们推出了M3MAD-Bench，这是一个统一且可扩展的基准，用于评估跨多领域任务、多模态输入和多维度指标的MAD方法。M3MAD-Bench在知识、数学、医学、自然科学和复杂推理这五个核心任务领域建立了标准化协议，并系统地涵盖了纯文本和视觉语言数据集，从而实现了可控的跨模态比较。我们评估了涵盖不同架构、规模和模态能力的九个基础模型上的MAD方法。除了准确性之外，M3MAD-Bench还纳入了面向效率的指标，如token消耗和推理时间，从而提供了性能-成本权衡的整体视图。广泛的实验对MAD在纯文本和多模态场景中的有效性、鲁棒性和效率进行了系统性的分析。我们相信M3MAD-Bench为未来标准化MAD评估研究提供了一个可靠的基础。

🔬 方法详解

问题定义：现有的多智能体辩论（MAD）研究缺乏统一的评估标准，不同方法在不同的数据集和评估指标上进行测试，难以进行公平比较。此外，现有研究主要集中在文本模态，忽略了视觉信息在复杂推理中的作用。因此，如何构建一个统一、公平且能支持多模态输入的MAD评估基准是一个关键问题。

核心思路：M3MAD-Bench的核心思路是构建一个统一的评估框架，涵盖多个领域、多种模态和多个评估指标，从而全面评估MAD方法的性能。通过标准化数据集和评估协议，可以实现不同MAD方法之间的公平比较。同时，引入视觉信息可以扩展MAD的应用范围，使其能够处理更复杂的推理任务。

技术框架：M3MAD-Bench包含以下几个主要组成部分：1) 五个核心任务领域：知识、数学、医学、自然科学和复杂推理；2) 多模态数据集：包括纯文本和视觉语言数据集；3) 多维度评估指标：包括准确性、token消耗和推理时间；4) 标准化的评估协议：用于确保不同MAD方法在相同条件下进行评估。整体流程是，给定一个任务，不同的MAD方法在M3MAD-Bench上进行评估，并根据多维度指标进行比较。

关键创新：M3MAD-Bench的关键创新在于其统一性和可扩展性。它首次将MAD评估扩展到多领域和多模态，并提供了一套标准化的评估协议。此外，M3MAD-Bench还引入了效率指标，如token消耗和推理时间，从而更全面地评估MAD方法的性能。

关键设计：M3MAD-Bench的关键设计包括：1) 任务领域的选择：选择具有代表性的五个核心任务领域，以覆盖不同类型的推理任务；2) 数据集的构建：构建包含纯文本和视觉语言数据集的多模态数据集，以支持跨模态评估；3) 评估指标的选择：选择准确性、token消耗和推理时间等多个维度的评估指标，以全面评估MAD方法的性能；4) 评估协议的制定：制定标准化的评估协议，以确保不同MAD方法在相同条件下进行评估。

🖼️ 关键图片

📊 实验亮点

M3MAD-Bench对九个基础模型进行了评估，涵盖了不同的架构、规模和模态能力。实验结果表明，MAD方法在某些领域和模态下能够显著提高性能，但在其他情况下可能效果不佳。此外，效率指标的评估揭示了MAD方法在性能和成本之间的权衡关系，为实际应用提供了重要的参考。

🎯 应用场景

M3MAD-Bench可应用于开发更有效、更鲁棒的多智能体辩论系统，提升智能体在复杂推理、决策制定和问题解决等领域的表现。该基准有助于推动多模态智能体的发展，使其能够更好地理解和利用现实世界的信息，从而在医疗诊断、科学研究和教育等领域发挥更大的作用。

📄 摘要（原文）

As an agent-level reasoning and coordination paradigm, Multi-Agent Debate (MAD) orchestrates multiple agents through structured debate to improve answer quality and support complex reasoning. However, existing research on MAD suffers from two fundamental limitations: evaluations are conducted under fragmented and inconsistent settings, hindering fair comparison, and are largely restricted to single-modality scenarios that rely on textual inputs only. To address these gaps, we introduce M3MAD-Bench, a unified and extensible benchmark for evaluating MAD methods across Multi-domain tasks, Multi-modal inputs, and Multi-dimensional metrics. M3MAD-Bench establishes standardized protocols over five core task domains: Knowledge, Mathematics, Medicine, Natural Sciences, and Complex Reasoning, and systematically covers both pure text and vision-language datasets, enabling controlled cross-modality comparison. We evaluate MAD methods on nine base models spanning different architectures, scales, and modality capabilities. Beyond accuracy, M3MAD-Bench incorporates efficiency-oriented metrics such as token consumption and inference time, providing a holistic view of performance--cost trade-offs. Extensive experiments yield systematic insights into the effectiveness, robustness, and efficiency of MAD across text-only and multimodal scenarios. We believe M3MAD-Bench offers a reliable foundation for future research on standardized MAD evaluation. The code is available at http://github.com/liaolea/M3MAD-Bench.

M3MAD-Bench: Are Multi-Agent Debates Really Effective Across Domains and Modalities?

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册