Discovery and Reinforcement of Tool-Integrated Reasoning Chains via Rollout Trees

📄 arXiv: 2601.08274v1 📥 PDF

作者: Kun Li, Zenan Xu, Junan Li, Zengrui Jin, Jinghao Deng, Zexuan Qiu, Bo Zhou

分类: cs.CL

发布日期: 2026-01-13


💡 一句话要点

提出DART框架以解决工具集成推理链的挑战

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 工具集成推理 长链推理 强化学习 动态回滚树 大型语言模型 自动化决策 智能助手

📋 核心要点

  1. 现有方法在长链推理中集成工具使用面临数据稀缺和整合困难的问题,限制了其性能提升。
  2. DART框架通过动态回滚树的构建,自动发现工具使用机会,强化有效的工具调用行为。
  3. 实验结果显示,DART在AIME和GPQA-Diamond基准上显著超越现有方法,提升了工具与推理的协调性。

📝 摘要(中文)

工具集成推理已成为增强大型语言模型(LLMs)计算能力的关键范式,但在长链推理中集成工具使用仍然未得到充分探索,主要由于训练数据稀缺和工具使用与模型内在长链推理的整合挑战。本文提出DART(通过回滚树发现和强化工具集成推理链),这是一个强化学习框架,能够在长链推理中自发地使用工具,而无需人工标注。DART通过在训练过程中构建动态回滚树来发现有效的工具使用机会,并在有前景的位置分支以探索多样的工具集成轨迹。随后,基于树的过程优势估计识别并归因于工具调用对解决方案的积极贡献,从而有效强化这些有益行为。大量在AIME和GPQA-Diamond等挑战性基准上的实验表明,DART显著优于现有方法,成功协调了工具执行与长链推理。

🔬 方法详解

问题定义:本文旨在解决在长链推理中有效集成工具使用的问题。现有方法由于缺乏训练数据和工具使用整合的挑战,导致其性能受限。

核心思路:DART框架的核心思想是通过构建动态回滚树,在训练过程中自动发现工具使用的机会,从而实现工具与推理的自发结合。这样的设计使得模型能够在没有人工标注的情况下,探索多样的工具集成轨迹。

技术框架:DART的整体架构包括动态回滚树的构建、工具使用机会的发现、以及基于树的过程优势估计。训练过程中,模型在有前景的位置进行分支,探索不同的工具调用路径。

关键创新:DART的主要创新在于其动态回滚树的构建和过程优势估计方法,这与现有方法的静态工具调用策略形成了本质区别,能够更有效地强化有益的工具使用行为。

关键设计:DART在参数设置上采用了动态调整策略,损失函数设计上强调工具调用的正向贡献,网络结构则结合了强化学习的策略优化机制,以提升工具集成推理的效果。

📊 实验亮点

在AIME和GPQA-Diamond基准测试中,DART显著提升了工具集成推理的性能,相较于现有方法,性能提升幅度达到XX%(具体数据未知),展示了其在复杂推理任务中的有效性和优势。

🎯 应用场景

该研究的潜在应用领域包括智能助手、自动化决策系统和复杂问题求解等。通过增强大型语言模型的计算能力,DART能够在实际应用中提供更高效的工具使用和推理能力,推动人工智能在各个领域的应用和发展。

📄 摘要(原文)

Tool-Integrated Reasoning has emerged as a key paradigm to augment Large Language Models (LLMs) with computational capabilities, yet integrating tool-use into long Chain-of-Thought (long CoT) remains underexplored, largely due to the scarcity of training data and the challenge of integrating tool-use without compromising the model's intrinsic long-chain reasoning. In this paper, we introduce DART (Discovery And Reinforcement of Tool-Integrated Reasoning Chains via Rollout Trees), a reinforcement learning framework that enables spontaneous tool-use during long CoT reasoning without human annotation. DART operates by constructing dynamic rollout trees during training to discover valid tool-use opportunities, branching out at promising positions to explore diverse tool-integrated trajectories. Subsequently, a tree-based process advantage estimation identifies and credits specific sub-trajectories where tool invocation positively contributes to the solution, effectively reinforcing these beneficial behaviors. Extensive experiments on challenging benchmarks like AIME and GPQA-Diamond demonstrate that DART significantly outperforms existing methods, successfully harmonizing tool execution with long CoT reasoning.