DeepTool: Scaling Interleaved Deliberation in Tool-Integrated Reasoning via Process-Supervised Reinforcement Learning
作者: Yang He, Xiao Ding, Bibo Cai, Yufei Zhang, Kai Xiong, Zhouhao Sun, Bing Qin, Ting Liu
分类: cs.AI
发布日期: 2026-05-28
💡 一句话要点
DeepTool:通过过程监督强化学习扩展工具集成推理中的交错思考
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 工具集成推理 强化学习 过程监督 交错思考 大型语言模型
📋 核心要点
- 现有工具集成推理方法缺乏在顺序工具调用中的审慎思考,限制了战略规划和自我纠正能力。
- DeepTool通过合成管道生成交错思考轨迹,并利用过程监督强化学习来强化中间推理步骤和工具调用。
- 实验表明,DeepTool显著提升了Qwen2.5-7B在多个基准测试中的性能,并实现了性能与token效率的平衡。
📝 摘要(中文)
工具集成推理(TIR)通过利用外部环境扩展了大型语言模型(LLM)的能力。然而,现有方法缺乏顺序工具调用过程中的审慎思考,而这对于战略规划和自我纠正至关重要。强化学习(RL)可以缓解这个问题,但传统的工具集成推理方法受到稀疏的基于结果的奖励的阻碍,无法监督中间的推理步骤和工具调用。为了解决这个问题,我们提出了DeepTool,这是一个新颖的框架,可以在每一轮思考、行动和观察的交错过程中扩展审慎思考。在DeepTool中,我们首先引入了一个合成管道,将扩展的思考演变为交错的轨迹,并整合对抗性扰动以确保鲁棒性和自我纠正。其次,我们设计了基于GRPO的过程监督强化学习,它利用以动作为中心的过程奖励来加强中间交错思考,并在每一轮强制执行精确的工具调用。大量的实验表明,DeepTool实现了卓越的性能,在六个基准测试中显著提升了Qwen2.5-7B的表现(例如,AIME24:3.2% -> 40.4%,HMMT25:0.0% -> 28.6%)。此外,token成本效益分析证实了交错思考的效用,证明了DeepTool在性能和token效率之间的最佳平衡。
🔬 方法详解
问题定义:论文旨在解决工具集成推理中,大型语言模型在进行复杂任务时,由于缺乏对中间推理步骤的有效监督,导致工具调用策略不佳的问题。现有方法依赖于稀疏的最终结果奖励,无法指导模型进行有效的探索和自我纠正,尤其是在需要多步推理和工具交互的场景下。
核心思路:DeepTool的核心思路是通过引入交错思考过程,并在强化学习过程中对中间推理步骤进行细粒度的监督。具体来说,模型在每一步思考后,立即执行动作(工具调用),并观察环境反馈,从而形成一个思考-行动-观察的循环。通过这种方式,模型可以更快地学习到有效的工具使用策略,并及时纠正错误。
技术框架:DeepTool包含两个主要模块:1) 交错轨迹合成管道:该模块负责生成训练数据,通过将扩展的思考过程转化为交错的思考-行动-观察轨迹,并引入对抗性扰动来增强模型的鲁棒性和自我纠正能力。2) 过程监督强化学习:该模块基于GRPO算法,利用以动作为中心的过程奖励来训练模型。过程奖励旨在强化中间的交错思考,并强制执行精确的工具调用。
关键创新:DeepTool的关键创新在于其过程监督强化学习方法,它通过对中间推理步骤进行细粒度的奖励,克服了传统强化学习方法在工具集成推理中面临的稀疏奖励问题。此外,交错思考的设计使得模型能够更有效地探索工具空间,并学习到更优的工具使用策略。
关键设计:DeepTool使用GRPO(未知)作为其强化学习算法的基础。Action-Centric Process Reward的设计是关键,它根据模型在每一步的思考和行动的质量来给予奖励。对抗性扰动被用于增加训练数据的多样性,并提高模型的泛化能力。具体的参数设置和网络结构细节在论文中可能有所描述,但此处未知。
🖼️ 关键图片
📊 实验亮点
DeepTool在六个基准测试中显著提升了Qwen2.5-7B的性能,例如,在AIME24上从3.2%提升到40.4%,在HMMT25上从0.0%提升到28.6%。Token成本效益分析表明,DeepTool在性能和token效率之间取得了良好的平衡,验证了交错思考的有效性。
🎯 应用场景
DeepTool具有广泛的应用前景,可用于提升大型语言模型在需要复杂推理和工具交互的任务中的性能,例如数学问题求解、科学研究、软件开发和智能助手等。该研究有助于构建更智能、更可靠的AI系统,并推动人机协作的发展。
📄 摘要(原文)
Tool-Integrated Reasoning (TIR) extends LLM capabilities by leveraging external environments. However, existing methods lack the deliberation during sequential tool invocation required for strategic planning and self-correction. While RL mitigates this, conventional approaches for Tool-Integrated Reasoning are hindered by sparse outcome-based rewards, failing to supervise intermediate reasoning steps and tool invocations. To address this, we propose DeepTool, a novel framework that scales deliberate thinking within the interleaved process of thinking, action, and observation at each turn. In DeepTool, we first introduce a synthesis pipeline that evolves extended thinking into interleaved trajectories, integrating adversarial perturbations to ensure robustness and self-correction. Secondly, we devise Process-Supervised Reinforcement Learning based on GRPO, which utilizes an Action-Centric Process Reward to reinforce intermediate interleaved thinking and enforce precise tool invocation at every turn. Extensive experiments demonstrate that DeepTool achieves superior performance, boosting Qwen2.5-7B significantly across six benchmarks (e.g., AIME24: 3.2% -> 40.4% and HMMT25: 0.0% -> 28.6%). Furthermore, the token cost-effectiveness analysis confirms the utility of interleaved thinking, demonstrating DeepTool's optimal balance between performance and token efficiency.