Implicit Hierarchical GRPO: Decoupling Tool Invocation from Execution for Tool-Integrated Mathematical Reasoning
作者: Li Wang, Xiaohan Wang, Xiaodong Lu, Zipeng Zhang, Jinyang Wu, Jiajun Chai, Wei Lin, Guojun Yin
分类: cs.CL
发布日期: 2026-05-18
🔗 代码/项目: GITHUB
💡 一句话要点
提出隐式分层GRPO算法,解耦工具调用与执行,提升工具集成数学推理能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 工具集成推理 大型语言模型 分层策略 解耦调用执行 数学推理 强化学习 策略优化
📋 核心要点
- 现有工具集成推理方法将工具调用与执行紧耦合,影响LLM推理连贯性,限制表达能力,降低推理性能。
- 论文提出解耦工具调用与执行,引入延迟执行和显式控制,增强工具集成推理,提升LLM推理能力。
- 提出的IH-GRPO算法在多个数学推理基准测试中,显著优于现有方法,证明了解耦策略的有效性。
📝 摘要(中文)
大型语言模型(LLMs)越来越多地利用工具调用来增强其推理能力。然而,现有方法通常将工具调用与立即执行紧密耦合。这种即时的工具交互可能会扰乱LLM的推理连贯性,并限制其表达能力,最终降低推理性能。为此,我们首次提出并形式化了推理过程中解耦工具调用与执行的问题,并引入具有显式控制的延迟执行来增强工具集成推理(TIR)。此外,我们提出了一个分层控制框架,并从理论上推导出一个替代损失,使隐式分层策略能够学习等效于显式分层策略的行为,从而产生了所提出的IH-GRPO算法。在六个领域外数学推理基准测试中,IH-GRPO在Qwen3-1.7B、Qwen3-4B和Qwen3-8B上实现了比最强基线方法分别高出1.87%、2.16%和2.53%的绝对改进,同时在其他领域也产生了持续的性能提升。我们的代码可在https://github.com/Lumina04/IH-GRPO-01上找到。
🔬 方法详解
问题定义:现有工具集成推理方法的主要痛点在于工具调用和执行的紧耦合。这种紧耦合使得LLM在推理过程中必须立即执行工具调用,打断了其自身的推理流程,限制了模型探索更复杂的推理路径的能力,最终导致推理性能下降。论文旨在解决这一问题,通过解耦工具调用和执行,允许LLM更灵活地利用工具。
核心思路:论文的核心思路是将工具调用和执行解耦,允许LLM先进行工具调用规划,然后再执行这些调用。通过引入延迟执行和显式控制,LLM可以更好地管理工具的使用,避免即时执行带来的推理中断。这种解耦策略使得LLM能够更连贯地进行推理,并探索更优的工具使用策略。
技术框架:论文提出了一个分层控制框架,该框架包含两个层次:高层策略负责工具调用规划,低层策略负责工具执行。高层策略决定何时以及调用哪个工具,并将这些决策传递给低层策略。低层策略负责执行具体的工具调用,并将结果返回给高层策略。整个框架通过一个隐式分层策略进行学习,该策略通过一个替代损失函数来模拟显式分层策略的行为。
关键创新:论文最重要的技术创新点在于提出了隐式分层GRPO(IH-GRPO)算法,该算法能够学习等效于显式分层策略的行为,而无需显式地定义层次结构。这种隐式分层策略使得模型能够更灵活地学习工具使用策略,并避免了显式分层策略带来的复杂性。与现有方法的本质区别在于,IH-GRPO算法将工具调用和执行解耦,允许LLM更灵活地利用工具,从而提升推理性能。
关键设计:论文的关键设计包括:1) 替代损失函数的设计,该损失函数能够使隐式分层策略学习到等效于显式分层策略的行为;2) 分层控制框架的设计,该框架能够有效地管理工具调用和执行;3) GRPO(Generalized Policy Optimization)算法的应用,该算法能够有效地优化策略。
🖼️ 关键图片
📊 实验亮点
实验结果表明,提出的IH-GRPO算法在六个领域外数学推理基准测试中,在Qwen3-1.7B、Qwen3-4B和Qwen3-8B上实现了比最强基线方法分别高出1.87%、2.16%和2.53%的绝对改进。这些结果证明了IH-GRPO算法在工具集成推理方面的有效性,并表明解耦工具调用与执行是一种有效的提升LLM推理能力的方法。
🎯 应用场景
该研究成果可广泛应用于需要工具集成的各种LLM应用场景,例如数学问题求解、科学计算、代码生成等。通过解耦工具调用与执行,可以提升LLM在复杂任务中的推理能力和解决问题的效率,具有重要的实际应用价值和广阔的未来发展前景。
📄 摘要(原文)
Large language models (LLMs) have increasingly leveraged tool invocation to enhance their reasoning capabilities. However, existing approaches typically tightly couple tool invocation with immediate execution. Such immediate tool interaction may disrupt the reasoning coherence of LLMs and constrain their expressivity, ultimately degrading reasoning performance. To this end, for the first time, we propose and formalize the problem of decoupling tool invocation from execution during reasoning, and introduce delayed execution with explicit control to enhance tool-integrated reasoning (TIR). Furthermore, we propose a hierarchical control framework and theoretically derive a surrogate loss that enables an implicitly hierarchical policy to learn behavior equivalent to that of an explicit hierarchical policy, leading to the proposed IH-GRPO algorithm. Extensive experiments on IH-GRPO achieve absolute improvements of 1.87\%, 2.16\%, and 2.53\% on Qwen3-1.7B, Qwen3-4B, and Qwen3-8B across six out-of-domain mathematical reasoning benchmarks over the strongest baseline method, while also yielding consistent performance gains in other domains. Our code is available at https://github.com/Lumina04/IH-GRPO-01.