TUMIX: Multi-Agent Test-Time Scaling with Tool-Use Mixture
作者: Yongchao Chen, Jiefeng Chen, Rui Meng, Ji Yin, Na Li, Chuchu Fan, Chi Wang, Tomas Pfister, Jinsung Yoon
分类: cs.CL, cs.AI
发布日期: 2025-09-30
备注: 27 pages, 13 figures
💡 一句话要点
TUMIX:基于工具使用混合的多Agent测试时扩展方法
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 工具使用 多Agent系统 集成学习 测试时扩展
📋 核心要点
- 现有大型语言模型在工具使用方面缺乏有效指导,难以有效结合文本推理、编码和搜索。
- TUMIX通过并行运行多个具有不同工具使用策略的agent,并迭代共享和改进答案来解决此问题。
- 实验表明,TUMIX在推理准确率上显著优于现有方法,并且可以通过提前停止来降低推理成本。
📝 摘要(中文)
本文提出了一种名为Tool-Use Mixture (TUMIX)的集成框架,旨在解决大型语言模型(LLM)在工具使用方面的优化问题,尤其是在结合文本推理、编码和搜索以应对多样化问题时。TUMIX并行运行多个agent,每个agent采用不同的工具使用策略和答案路径。这些agent基于问题和之前的答案迭代地共享和改进响应。实验结果表明,TUMIX在关键推理基准测试中,相对于最先进的工具增强和测试时扩展方法,在Gemini-2.5-Pro和Gemini-2.5-Flash上实现了平均高达3.55%的准确率提升,且推理成本几乎相同。Agent的多样性和质量至关重要,可以通过使用LLM自动优化agent设计来增强。此外,TUMIX可以在达到足够的置信度时停止改进,从而在仅49%的推理成本下保持性能。进一步扩展可以实现更高的性能,但成本也会增加。
🔬 方法详解
问题定义:现有的大型语言模型,例如ChatGPT Agent和Gemini-Pro,集成了代码解释器和搜索等工具,显著增强了推理能力。然而,如何有效地利用这些工具,特别是如何将文本推理、编码和搜索结合起来解决各种问题,仍然缺乏有效的指导。现有的方法在工具使用策略上不够灵活,难以适应不同类型的问题,导致性能瓶颈。
核心思路:TUMIX的核心思路是采用一种集成学习的方法,并行运行多个agent,每个agent都采用不同的工具使用策略。通过让这些agent相互协作、共享信息和改进答案,可以有效地探索不同的解决方案,并最终得到更准确、更可靠的答案。这种方法类似于集思广益,可以充分利用不同agent的优势,避免单一策略的局限性。
技术框架:TUMIX的整体框架包括以下几个主要模块:1) Agent池:包含多个agent,每个agent都配备不同的工具使用策略。2) 并行执行:所有agent并行执行,针对给定的问题生成初步答案。3) 信息共享:agent之间共享答案和推理过程,以便相互学习和改进。4) 迭代改进:基于共享的信息,agent迭代地改进自己的答案。5) 置信度评估:评估每个agent答案的置信度,并根据置信度决定是否停止迭代。6) 答案融合:将所有agent的答案融合,得到最终的答案。
关键创新:TUMIX的关键创新在于其多agent集成学习的框架,以及基于置信度的提前停止机制。与传统的单一agent方法相比,TUMIX可以更有效地探索不同的解决方案,并提高答案的准确性和可靠性。提前停止机制可以在保证性能的前提下,显著降低推理成本。此外,利用LLM自动优化agent设计也是一个重要的创新点。
关键设计:在TUMIX中,agent的多样性至关重要,可以通过设计不同的工具使用策略来实现。例如,一些agent可以侧重于文本推理,另一些agent可以侧重于编码,还有一些agent可以侧重于搜索。置信度评估可以使用LLM来判断答案的合理性和一致性。答案融合可以使用加权平均或其他集成学习方法。此外,如何利用LLM自动优化agent设计,例如自动生成工具使用策略,也是一个重要的研究方向。
📊 实验亮点
实验结果表明,TUMIX在Gemini-2.5-Pro和Gemini-2.5-Flash上,相对于最先进的工具增强和测试时扩展方法,实现了平均高达3.55%的准确率提升。此外,TUMIX可以在仅49%的推理成本下保持性能,并且可以通过进一步扩展来获得更高的性能。这些结果表明,TUMIX是一种有效且高效的工具使用方法。
🎯 应用场景
TUMIX具有广泛的应用前景,可以应用于各种需要复杂推理和工具使用的场景,例如智能客服、自动编程、科学研究等。通过提高LLM的推理能力和工具使用效率,TUMIX可以帮助人们更高效地解决各种问题,并推动人工智能技术的发展。未来,TUMIX可以进一步扩展到更多的领域,例如机器人控制、自动驾驶等。
📄 摘要(原文)
While integrating tools like Code Interpreter and Search has significantly enhanced Large Language Model (LLM) reasoning in models like ChatGPT Agent and Gemini-Pro, practical guidance on optimal tool use is lacking. The core challenge is effectively combining textual reasoning, coding, and search for diverse questions. In this paper, we propose Tool-Use Mixture (TUMIX), an ensemble framework that runs multiple agents in parallel, each employing distinct tool-use strategies and answer paths. Agents in TUMIX iteratively share and refine responses based on the question and previous answers. In experiments, TUMIX achieves significant gains over state-of-the-art tool-augmented and test-time scaling methods, delivering an average accuracy improvement of up to 3.55% over the best baseline on Gemini-2.5-Pro and Gemini-2.5-Flash across key reasoning benchmarks, with near-equal inference costs. We find that agent diversity and quality are crucial and can be enhanced by using LLMs to auto-optimize agent designs. Furthermore, TUMIX can halt refinement upon reaching sufficient confidence, preserving performance at only 49% of the inference cost. Further scaling can achieve higher performance, albeit at a greater cost.