A Toolbox, Not a Hammer -- Multi-TAG: Scaling Math Reasoning with Multi-Tool Aggregation

📄 arXiv: 2507.18973v2 📥 PDF

作者: Bohan Yao, Vikas Yadav

分类: cs.CL, cs.AI, cs.LG

发布日期: 2025-07-25 (更新: 2025-08-22)

备注: Published at EMNLP Findings 2025; 21 pages, 3 figures


💡 一句话要点

提出Multi-TAG框架,通过多工具聚合提升LLM在复杂数学推理中的性能。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 数学推理 工具增强 多工具聚合 无需微调

📋 核心要点

  1. 现有工具增强的LLM方法在复杂数学问题上表现不佳,因为它们依赖于每一步选择单个工具。
  2. Multi-TAG框架通过引导LLM并行调用多个工具,并聚合它们的输出来验证和改进推理过程。
  3. 实验表明,Multi-TAG在多个数学推理基准测试中显著优于现有方法,无需微调即可实现性能提升。

📝 摘要(中文)

本文提出了一种名为Multi-TAG的多工具聚合框架,旨在提升大型语言模型(LLM)在数学推理任务中的性能。与以往方法不同,Multi-TAG不依赖于每一步选择单个工具,而是引导LLM同时调用多个工具,并通过聚合它们的多样化输出来验证和改进推理过程,从而增强解决方案的鲁棒性和准确性。值得注意的是,Multi-TAG是一个无需微调、仅用于推理的框架,使其能够应用于任何LLM骨干网络,包括难以微调的大型开源模型和无法使用自定义方法微调的专有前沿模型。在MATH500、AIME、AMC和OlympiadBench四个具有挑战性的基准测试中,Multi-TAG始终显著优于最先进的基线方法,平均提升幅度为6.0%至7.5%。

🔬 方法详解

问题定义:论文旨在解决大型语言模型在复杂数学推理问题上的不足。现有方法通常在每一步骤选择并调用单个外部工具,这限制了模型探索多种解题路径和验证推理过程的能力,尤其是在需要多步骤精确推理的复杂问题上。这种单工具依赖性导致模型在面对复杂问题时容易出错,缺乏鲁棒性。

核心思路:Multi-TAG的核心思路是让LLM在每个推理步骤中并行使用多个工具,而不是仅依赖于单个工具。通过聚合多个工具的输出,模型可以获得更全面的信息,从而验证和改进推理过程。这种多工具聚合的方法旨在提高解决方案的鲁棒性和准确性。

技术框架:Multi-TAG框架主要包含以下几个阶段:首先,LLM接收数学问题作为输入。然后,LLM被引导并行调用多个外部工具,例如计算器、代数求解器等。每个工具独立地处理问题并生成输出。接下来,Multi-TAG框架聚合来自不同工具的输出,并利用LLM对这些输出进行验证和提炼。最后,LLM基于聚合和提炼后的信息生成最终答案。整个框架无需对LLM进行微调,可以直接应用于各种LLM骨干网络。

关键创新:Multi-TAG最重要的创新点在于其多工具聚合的思想。与以往的单工具方法不同,Multi-TAG允许LLM同时利用多个工具的优势,从而更全面地理解问题并生成更准确的答案。此外,Multi-TAG是一个无需微调的框架,这使得它能够应用于各种LLM,包括那些难以或无法微调的模型。

关键设计:Multi-TAG的关键设计包括如何有效地引导LLM并行调用多个工具,以及如何聚合来自不同工具的输出。论文可能采用特定的提示工程(prompt engineering)技术来引导LLM选择合适的工具。对于输出聚合,论文可能使用某种加权平均或投票机制来整合不同工具的输出。具体的参数设置和损失函数(如果存在)未知,因为该方法是纯推理方法,不涉及训练。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Multi-TAG在MATH500、AIME、AMC和OlympiadBench四个具有挑战性的数学推理基准测试中取得了显著的性能提升。实验结果表明,Multi-TAG始终优于最先进的基线方法,平均提升幅度为6.0%至7.5%。这些结果表明,Multi-TAG的多工具聚合方法能够有效地提高LLM在复杂数学推理任务中的性能。

🎯 应用场景

Multi-TAG框架具有广泛的应用前景,可应用于各种需要复杂数学推理的领域,例如科学研究、工程设计、金融分析等。该框架可以帮助专业人员更高效地解决复杂的数学问题,并提高决策的准确性。此外,Multi-TAG的无需微调特性使其易于部署和应用,有望推动LLM在数学推理领域的普及。

📄 摘要(原文)

Augmenting large language models (LLMs) with external tools is a promising avenue for developing high-performance mathematical reasoning systems. Prior tool-augmented approaches typically finetune an LLM to select and invoke a single tool at each reasoning step and show promising results on simpler math reasoning benchmarks such as GSM8K. However, these approaches struggle with more complex math problems that require precise reasoning over multiple steps. To address this limitation, in this work, we propose Multi-TAG, a Multi-Tool AGgregation-based framework. Instead of relying on a single tool, Multi-TAG guides an LLM to concurrently invoke multiple tools at each reasoning step. It then aggregates their diverse outputs to verify and refine the reasoning process, enhancing solution robustness and accuracy. Notably, Multi-TAG is a finetuning-free, inference-only framework, making it readily applicable to any LLM backbone, including large open-weight models which are computationally expensive to finetune and proprietary frontier models which cannot be finetuned with custom recipes. We evaluate Multi-TAG on four challenging benchmarks: MATH500, AIME, AMC, and OlympiadBench. Across both open-weight and closed-source LLM backbones, Multi-TAG consistently and substantially outperforms state-of-the-art baselines, achieving average improvements of 6.0% to 7.5% over state-of-the-art baselines.