TUMIX: Multi-Agent Test-Time Scaling with Tool-Use Mixture

作者: Yongchao Chen, Jiefeng Chen, Rui Meng, Ji Yin, Na Li, Chuchu Fan, Chi Wang, Tomas Pfister, Jinsung Yoon

分类: cs.CL, cs.AI

发布日期: 2025-09-30

备注: 27 pages, 13 figures

💡 一句话要点

TUMIX：基于工具使用混合的多Agent测试时扩展方法

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 工具使用 多Agent系统 集成学习 测试时扩展

📋 核心要点

现有大型语言模型在工具使用方面缺乏有效指导，难以有效结合文本推理、编码和搜索。
TUMIX通过并行运行多个具有不同工具使用策略的agent，并迭代共享和改进答案来解决此问题。
实验表明，TUMIX在推理准确率上显著优于现有方法，并且可以通过提前停止来降低推理成本。

📝 摘要（中文）

本文提出了一种名为Tool-Use Mixture (TUMIX)的集成框架，旨在解决大型语言模型（LLM）在工具使用方面的优化问题，尤其是在结合文本推理、编码和搜索以应对多样化问题时。TUMIX并行运行多个agent，每个agent采用不同的工具使用策略和答案路径。这些agent基于问题和之前的答案迭代地共享和改进响应。实验结果表明，TUMIX在关键推理基准测试中，相对于最先进的工具增强和测试时扩展方法，在Gemini-2.5-Pro和Gemini-2.5-Flash上实现了平均高达3.55%的准确率提升，且推理成本几乎相同。Agent的多样性和质量至关重要，可以通过使用LLM自动优化agent设计来增强。此外，TUMIX可以在达到足够的置信度时停止改进，从而在仅49%的推理成本下保持性能。进一步扩展可以实现更高的性能，但成本也会增加。

🔬 方法详解

问题定义：现有的大型语言模型，例如ChatGPT Agent和Gemini-Pro，集成了代码解释器和搜索等工具，显著增强了推理能力。然而，如何有效地利用这些工具，特别是如何将文本推理、编码和搜索结合起来解决各种问题，仍然缺乏有效的指导。现有的方法在工具使用策略上不够灵活，难以适应不同类型的问题，导致性能瓶颈。

核心思路：TUMIX的核心思路是采用一种集成学习的方法，并行运行多个agent，每个agent都采用不同的工具使用策略。通过让这些agent相互协作、共享信息和改进答案，可以有效地探索不同的解决方案，并最终得到更准确、更可靠的答案。这种方法类似于集思广益，可以充分利用不同agent的优势，避免单一策略的局限性。

技术框架：TUMIX的整体框架包括以下几个主要模块：1) Agent池：包含多个agent，每个agent都配备不同的工具使用策略。2) 并行执行：所有agent并行执行，针对给定的问题生成初步答案。3) 信息共享：agent之间共享答案和推理过程，以便相互学习和改进。4) 迭代改进：基于共享的信息，agent迭代地改进自己的答案。5) 置信度评估：评估每个agent答案的置信度，并根据置信度决定是否停止迭代。6) 答案融合：将所有agent的答案融合，得到最终的答案。

关键创新：TUMIX的关键创新在于其多agent集成学习的框架，以及基于置信度的提前停止机制。与传统的单一agent方法相比，TUMIX可以更有效地探索不同的解决方案，并提高答案的准确性和可靠性。提前停止机制可以在保证性能的前提下，显著降低推理成本。此外，利用LLM自动优化agent设计也是一个重要的创新点。

关键设计：在TUMIX中，agent的多样性至关重要，可以通过设计不同的工具使用策略来实现。例如，一些agent可以侧重于文本推理，另一些agent可以侧重于编码，还有一些agent可以侧重于搜索。置信度评估可以使用LLM来判断答案的合理性和一致性。答案融合可以使用加权平均或其他集成学习方法。此外，如何利用LLM自动优化agent设计，例如自动生成工具使用策略，也是一个重要的研究方向。

📊 实验亮点

实验结果表明，TUMIX在Gemini-2.5-Pro和Gemini-2.5-Flash上，相对于最先进的工具增强和测试时扩展方法，实现了平均高达3.55%的准确率提升。此外，TUMIX可以在仅49%的推理成本下保持性能，并且可以通过进一步扩展来获得更高的性能。这些结果表明，TUMIX是一种有效且高效的工具使用方法。

🎯 应用场景

TUMIX具有广泛的应用前景，可以应用于各种需要复杂推理和工具使用的场景，例如智能客服、自动编程、科学研究等。通过提高LLM的推理能力和工具使用效率，TUMIX可以帮助人们更高效地解决各种问题，并推动人工智能技术的发展。未来，TUMIX可以进一步扩展到更多的领域，例如机器人控制、自动驾驶等。

📄 摘要（原文）

While integrating tools like Code Interpreter and Search has significantly enhanced Large Language Model (LLM) reasoning in models like ChatGPT Agent and Gemini-Pro, practical guidance on optimal tool use is lacking. The core challenge is effectively combining textual reasoning, coding, and search for diverse questions. In this paper, we propose Tool-Use Mixture (TUMIX), an ensemble framework that runs multiple agents in parallel, each employing distinct tool-use strategies and answer paths. Agents in TUMIX iteratively share and refine responses based on the question and previous answers. In experiments, TUMIX achieves significant gains over state-of-the-art tool-augmented and test-time scaling methods, delivering an average accuracy improvement of up to 3.55% over the best baseline on Gemini-2.5-Pro and Gemini-2.5-Flash across key reasoning benchmarks, with near-equal inference costs. We find that agent diversity and quality are crucial and can be enhanced by using LLMs to auto-optimize agent designs. Furthermore, TUMIX can halt refinement upon reaching sufficient confidence, preserving performance at only 49% of the inference cost. Further scaling can achieve higher performance, albeit at a greater cost.

TUMIX: Multi-Agent Test-Time Scaling with Tool-Use Mixture

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册