Two Heads are Better Than One: Test-time Scaling of Multi-agent Collaborative Reasoning

作者: Can Jin, Hongwu Peng, Qixin Zhang, Yujin Tang, Dimitris N. Metaxas, Tong Che

分类: cs.AI

发布日期: 2025-04-14 (更新: 2025-08-19)

🔗 代码/项目: GITHUB

💡 一句话要点

提出自适应多智能体框架，通过模型训练和系统协调增强协同推理能力

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多智能体系统 协同推理 自适应协调 大型语言模型 测试时扩展

📋 核心要点

现有单智能体系统难以有效解决复杂的现实世界任务，多智能体系统的协同推理能力有待提升。
提出自适应多智能体框架，通过优化模型和动态协调智能体间的讨论过程，增强协同推理能力。
实验结果表明，该系统在多个任务上显著优于现有基线，并在部分任务上达到SOTA模型的性能水平。

📝 摘要（中文）

本文提出了一种自适应多智能体框架，旨在通过模型层面的训练和系统层面的协调来增强协同推理能力，解决单智能体系统难以处理的复杂现实世界任务。为此，作者构建了一个包含500条多智能体协同推理轨迹的高质量数据集M500，并在此数据集上微调Qwen2.5-32B-Instruct模型，生成了专门为多智能体协作优化的模型M1-32B。此外，作者还提出了一个新颖的CEO智能体，用于动态管理讨论过程，指导智能体协作并调整推理深度，从而更有效地解决问题。在包括通用理解、数学推理和编码等一系列任务的开源多智能体系统中进行的评估表明，该系统显著优于强大的基线模型。例如，M1-32B在GPQA-Diamond上实现了12%的改进，在AIME2024上实现了41%的改进，在MBPP-Sanitized上实现了10%的改进，在某些任务上与最先进的模型（如DeepSeek-R1）的性能相匹配。这些结果突显了在扩展多智能体推理中，学习到的协作和自适应协调的重要性。

🔬 方法详解

问题定义：论文旨在解决多智能体系统在复杂推理任务中的协同效率问题。现有方法在扩展多智能体推理时，缺乏有效的协作学习和自适应协调机制，导致性能提升受限。具体痛点包括智能体间沟通效率低、推理深度难以动态调整等。

核心思路：论文的核心思路是通过模型层面的训练和系统层面的协调，使多智能体系统能够更有效地进行协同推理。具体而言，通过构建高质量数据集并微调LLM，使智能体具备更好的协作能力；同时，引入CEO智能体动态管理讨论过程，自适应地调整推理深度。

技术框架：整体框架包含多个智能体和一个CEO智能体。智能体负责执行具体的推理任务，CEO智能体负责监控和指导整个讨论过程。框架主要分为以下几个阶段：1) 智能体提出初步解决方案；2) CEO智能体评估方案并指导讨论方向；3) 智能体根据CEO的指导进行进一步推理和协作；4) CEO智能体整合结果并输出最终答案。

关键创新：论文的关键创新在于CEO智能体的引入和M500数据集的构建。CEO智能体能够动态管理讨论过程，自适应地调整推理深度，避免了传统方法中固定推理深度带来的局限性。M500数据集为多智能体协同推理提供了高质量的训练数据，促进了模型协作能力的提升。

关键设计：CEO智能体的设计是关键。CEO智能体需要具备评估智能体方案质量、指导讨论方向和整合结果的能力。具体实现上，CEO智能体使用LLM进行建模，通过prompt engineering使其具备上述功能。此外，M500数据集的构建也至关重要，需要保证数据的多样性和高质量，以充分训练智能体的协作能力。损失函数方面，采用标准的交叉熵损失函数进行微调。

🖼️ 关键图片

📊 实验亮点

实验结果表明，M1-32B模型在多个推理任务上取得了显著的性能提升。在GPQA-Diamond上，M1-32B实现了12%的改进；在AIME2024上，实现了41%的改进；在MBPP-Sanitized上，实现了10%的改进。此外，M1-32B在某些任务上与最先进的模型（如DeepSeek-R1）的性能相匹配，证明了该方法的有效性。

🎯 应用场景

该研究成果可应用于需要多智能体协同完成的复杂任务，例如：智能客服、自动驾驶、金融风险评估、医疗诊断等。通过提升多智能体系统的协同推理能力，可以提高问题解决的效率和准确性，从而带来显著的实际价值。未来，该研究可以进一步扩展到更广泛的应用领域，并与其他技术（如强化学习、知识图谱）相结合，实现更强大的多智能体系统。

📄 摘要（原文）

Multi-agent systems (MAS) built on large language models (LLMs) offer a promising path toward solving complex, real-world tasks that single-agent systems often struggle to manage. While recent advancements in test-time scaling (TTS) have significantly improved single-agent performance on challenging reasoning tasks, how to effectively scale collaboration and reasoning in MAS remains an open question. In this work, we introduce an adaptive multi-agent framework designed to enhance collaborative reasoning through both model-level training and system-level coordination. We construct M500, a high-quality dataset containing 500 multi-agent collaborative reasoning traces, and fine-tune Qwen2.5-32B-Instruct on this dataset to produce M1-32B, a model optimized for multi-agent collaboration. To further enable adaptive reasoning, we propose a novel CEO agent that dynamically manages the discussion process, guiding agent collaboration and adjusting reasoning depth for more effective problem-solving. Evaluated in an open-source MAS across a range of tasks-including general understanding, mathematical reasoning, and coding-our system significantly outperforms strong baselines. For instance, M1-32B achieves 12% improvement on GPQA-Diamond, 41% on AIME2024, and 10% on MBPP-Sanitized, matching the performance of state-of-the-art models like DeepSeek-R1 on some tasks. These results highlight the importance of both learned collaboration and adaptive coordination in scaling multi-agent reasoning. Code is available at https://github.com/jincan333/MAS-TTS

Two Heads are Better Than One: Test-time Scaling of Multi-agent Collaborative Reasoning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理