ReTool: Reinforcement Learning for Strategic Tool Use in LLMs

📄 arXiv: 2504.11536v2 📥 PDF

作者: Jiazhan Feng, Shijue Huang, Xingwei Qu, Ge Zhang, Yujia Qin, Baoquan Zhong, Chengquan Jiang, Jinxin Chi, Wanjun Zhong

分类: cs.CL, cs.AI

发布日期: 2025-04-15 (更新: 2025-04-17)

备注: fix typos


💡 一句话要点

ReTool:强化学习驱动LLM战略性工具使用,提升复杂数学推理能力

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 强化学习 大型语言模型 工具使用 数学推理 代码解释器 神经符号系统 自动化学习

📋 核心要点

  1. 现有基于强化学习的推理模型在文本推理方面表现出色,但在几何推理、精确计算或复杂方程求解等需要结构化问题解决的场景中表现不佳。
  2. ReTool通过工具集成学习增强长文本推理,动态交错实时代码执行与自然语言推理,并采用自动化强化学习范式,基于结果反馈学习工具调用策略。
  3. 实验表明,ReTool在MATH奥林匹克基准AIME上显著优于现有方法,ReTool-32B模型在扩展设置中超过OpenAI的o1-preview 27.9%。

📝 摘要(中文)

本文提出ReTool,一种通过工具集成学习增强长文本推理的方法。ReTool包含两个关键特性:一是自然语言推理过程中实时交错的代码执行;二是自动化强化学习范式,允许多轮实时代码执行的策略rollout,并基于结果反馈训练模型何时以及如何调用工具。ReTool采用系统的训练框架,首先生成合成的冷启动数据,产生代码增强的长文本推理轨迹,用于微调基础模型。随后的强化学习训练利用任务结果作为奖励,迭代地优化模型的工具使用策略,无需人工先验知识即可自主发现最佳工具调用模式。在具有挑战性的MATH奥林匹克基准AIME上的实验表明,ReTool具有优越性:我们的32B模型在400个训练步骤中达到67%的准确率,在效率和性能上优于基于文本的强化学习基线(40%准确率,1080步)。值得注意的是,ReTool-32B在扩展设置中达到72.5%的准确率,超过OpenAI的o1-preview 27.9%。进一步的分析揭示了代码自我纠正等涌现行为,表明模型自主掌握了自适应工具的使用。这些发现突出了结果驱动的工具集成在推进复杂数学推理方面的潜力,并为混合神经符号系统提供了新的见解。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)在需要结构化问题解决的场景,如数学推理中,无法有效利用外部工具(如代码解释器)的问题。现有方法要么依赖纯文本推理,要么需要人工设计的工具使用策略,效率和效果都受到限制。

核心思路:ReTool的核心思路是通过强化学习,让LLM自主学习何时以及如何调用外部工具,以解决复杂问题。通过将代码执行与自然语言推理动态交错,并利用任务结果作为奖励信号,模型可以自主发现最佳的工具使用模式,无需人工干预。

技术框架:ReTool的整体框架包含两个主要阶段:1) 基于合成数据进行微调:生成包含代码增强的长文本推理轨迹,用于微调基础模型,使其具备初步的工具使用能力。2) 强化学习训练:利用任务结果作为奖励,通过策略梯度算法迭代优化模型的工具使用策略。模型在多轮交互中,根据当前状态决定是否调用工具,并根据工具的执行结果调整后续的推理步骤。

关键创新:ReTool的关键创新在于自动化强化学习范式,它允许模型在没有人工先验知识的情况下,自主学习最优的工具调用策略。通过将代码执行与自然语言推理动态交错,并利用任务结果作为奖励信号,模型可以自主发现最佳的工具使用模式,并涌现出代码自我纠正等行为。

关键设计:ReTool使用策略梯度算法进行强化学习训练,奖励函数基于任务结果(例如,数学题是否解答正确)。模型需要学习一个策略,该策略决定在每个推理步骤中是否调用代码解释器,以及如何构造代码。具体的网络结构和参数设置取决于所使用的基础模型(例如,DeepSeek R1)。合成数据的生成方式也需要精心设计,以保证数据的质量和多样性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

ReTool在AIME数学奥林匹克基准测试中表现出色,ReTool-32B模型仅用400个训练步骤就达到了67%的准确率,显著优于基于文本的强化学习基线(40%准确率,1080步)。更令人印象深刻的是,ReTool-32B在扩展设置中达到了72.5%的准确率,超越了OpenAI的o1-preview 27.9%。

🎯 应用场景

ReTool具有广泛的应用前景,可应用于数学、科学、工程等领域,提升LLM在复杂问题求解方面的能力。该研究为混合神经符号系统提供了新的思路,有助于开发更智能、更可靠的AI系统,例如智能助手、自动化科学发现等。

📄 摘要(原文)

While reasoning models (e.g., DeepSeek R1) trained with reinforcement learning (RL), excel in textual reasoning, they struggle in scenarios requiring structured problem-solving, such as geometric reasoning, concise computation, or complex equation solving-areas where computational tools like code interpreters (CI) demonstrate distinct advantages. To bridge this gap, we propose ReTool, which enhances long-form reasoning with tool-integrated learning, including two key features: (1) dynamic interleaving of real-time code execution within natural language reasoning processes, and (2) an automated RL paradigm that allows policy rollouts with multi-turn real-time code execution and teaches the model in learning when and how to invoke tools based on outcome feedback. ReTool employs a systematic training framework, beginning with synthetic cold-start data generation to produce code-augmented long-form reasoning traces for fine-tuning base models. Subsequent RL training leverages task outcomes as rewards to iteratively refine the model's tool use strategy, enabling autonomous discovery of optimal tool invocation patterns without human priors. Experiments on the challenging MATH Olympiad benchmark AIME demonstrate ReTool's superiority: Our 32B model achieves 67% accuracy with 400 training steps, outperforming text-based RL baseline (40% accuracy, 1080 steps) in efficiency and performance. Remarkably, ReTool-32B attains 72.5% accuracy in extended settings, surpassing OpenAI's o1-preview by 27.9%. Further analysis reveals emergent behaviors such as code self-correction, signaling an ''aha moment'' in which the model autonomously masters adaptive tool use. These findings highlight the promise of outcome-driven tool integration for advancing complex mathematical reasoning and offer new insights into hybrid neuro-symbolic systems.