Beyond the Strongest LLM: Multi-Turn Multi-Agent Orchestration vs. Single LLMs on Benchmarks
作者: Aaron Xuxiang Tian, Ruofan Zhang, Jiayao Tang, Young Min Cho, Xueqian Li, Qiang Yi, Ji Wang, Zhunping Zhang, Danrui Qi, Zekun Li, Xingyu Xiang, Sharath Chandra Guntuku, Lyle Ungar, Tianyu Shi, Chi Wang
分类: cs.AI
发布日期: 2025-09-28 (更新: 2025-10-01)
备注: 9 pages, 3 tables, 1 figure
💡 一句话要点
多智能体协同超越最强LLM:在基准测试中胜过单一大语言模型
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多智能体系统 大语言模型 协同推理 投票机制 共识算法 基准测试 消融研究
📋 核心要点
- 现有大语言模型在复杂推理任务中存在局限性,难以充分利用模型自身能力。
- 提出多智能体协同框架,通过多轮交互和投票机制,促使智能体达成共识,提升性能。
- 实验表明,该协同框架在多个基准测试中超越了最强的单一模型,并分析了不同因素的影响。
📝 摘要(中文)
本文研究了多轮多智能体协同,其中多个大型语言模型(LLM)智能体通过迭代地提出答案或进行投票来交互,直到达成共识。使用四个LLM(Gemini 2.5 Pro、GPT-5、Grok 4 和 Claude Sonnet 4)在 GPQA-Diamond、IFEval 和 MuSR 上,我们进行了两个实验:(i)将协同与单LLM基线进行基准测试;(ii)在 GPQA-Diamond 上进行消融研究,改变智能体是否能看到答案的作者以及是否能观察到正在进行的投票。协同匹配或超过了最强的单一模型,并且始终优于其他模型。对最佳可实现协同性能的分析表明,存在进一步提升的潜力。消融研究表明,揭示作者身份会增加自我投票和并列,而显示正在进行的投票会放大羊群效应,这会加速收敛,但有时会导致过早达成共识。
🔬 方法详解
问题定义:现有的大型语言模型(LLM)在处理需要复杂推理和多角度分析的任务时,往往受限于自身知识的片面性和推理能力的不足。即使是最强大的LLM,也可能因为缺乏多样化的视角而无法达到最优性能。因此,如何有效地整合多个LLM的优势,从而提升整体性能,是一个重要的研究问题。
核心思路:本文的核心思路是利用多智能体协同机制,模拟人类专家团队协作解决问题的过程。通过让多个LLM智能体在多轮交互中提出各自的答案,并进行投票表决,最终达成共识。这种方法旨在克服单个LLM的局限性,充分利用不同模型的优势,从而提高问题解决的准确性和可靠性。
技术框架:该方法的技术框架主要包括以下几个阶段:1) 初始化:为每个LLM智能体分配相同的任务;2) 答案生成:每个智能体独立生成答案;3) 答案共享:所有智能体共享彼此的答案;4) 投票:每个智能体根据所有答案进行投票;5) 共识达成:如果达到预设的投票阈值,则输出共识答案,否则返回步骤2,进行下一轮迭代。
关键创新:该方法最重要的创新点在于将多智能体协同的思想引入到LLM的应用中,通过模拟人类协作的方式,有效地整合了多个LLM的优势。与传统的单模型方法相比,该方法能够提供更全面、更可靠的答案。此外,该方法还通过消融实验,分析了不同因素(如作者身份、投票可见性)对协同效果的影响。
关键设计:在具体实现中,关键的设计包括:1) 智能体的选择:选择了多个当前最先进的LLM,如Gemini 2.5 Pro、GPT-5、Grok 4 和 Claude Sonnet 4;2) 投票机制:采用了简单的投票机制,每个智能体可以对所有答案进行投票;3) 迭代轮数:设置了最大迭代轮数,以防止无限循环;4) 共识阈值:设置了共识阈值,只有当某个答案的得票数超过该阈值时,才认为达成共识。
🖼️ 关键图片
📊 实验亮点
实验结果表明,多智能体协同方法在 GPQA-Diamond、IFEval 和 MuSR 等基准测试中,匹配或超过了最强的单一模型,并且始终优于其他模型。消融实验表明,揭示作者身份会增加自我投票和并列,而显示正在进行的投票会放大羊群效应,这会加速收敛,但有时会导致过早达成共识。
🎯 应用场景
该研究成果可应用于需要高度准确性和可靠性的领域,例如医疗诊断、金融分析、法律咨询等。通过多智能体协同,可以降低单一模型出错的风险,提高决策的质量。未来,该方法还可以扩展到更复杂的任务中,例如自动驾驶、智能制造等。
📄 摘要(原文)
We study multi-turn multi-agent orchestration, where multiple large language model (LLM) agents interact over multiple turns by iteratively proposing answers or casting votes until reaching consensus. Using four LLMs (Gemini 2.5 Pro, GPT-5, Grok 4, and Claude Sonnet 4) on GPQA-Diamond, IFEval, and MuSR, we conduct two experiments: (i) benchmarking orchestration against single-LLM baselines; and (ii) ablations on GPQA-Diamond that vary whether agents see who authored answers and whether they can observe ongoing votes. Orchestration matches or exceeds the strongest single model and consistently outperforms the others. Analysis of best-achievable orchestration performance shows potential for further gains. The ablations show that revealing authorship increases self-voting and ties, and that showing ongoing votes amplifies herding, which speeds convergence but can sometimes yield premature consensus.