Toward Effective Tool-Integrated Reasoning via Self-Evolved Preference Learning

作者: Yifei Chen, Guanting Dong, Zhicheng Dou

分类: cs.AI

发布日期: 2025-09-27 (更新: 2025-09-30)

💡 一句话要点

提出Tool-Light框架，通过自进化偏好学习提升LLM工具集成推理的效率与准确性

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 工具集成推理 大型语言模型 信息熵 自进化学习 偏好优化

📋 核心要点

现有工具集成推理方法存在工具使用不当和推理过程不稳定的问题，难以充分发挥LLM的潜力。
Tool-Light框架通过信息熵分析指导采样，并结合自进化偏好学习，鼓励LLM更高效准确地使用工具。
实验表明，Tool-Light在多个数据集上显著提升了LLM在工具集成推理任务中的效率，验证了其有效性。

📝 摘要（中文）

工具集成推理(TIR)使大型语言模型(LLM)能够通过集成外部工具来提高其内部推理能力。然而，采用TIR的模型常常表现出次优行为，例如工具使用不足或过度，以及在工具调用后过度思考。如何激励LLM高效准确地执行TIR，同时稳定推理过程，仍然是一个开放的问题。本文从信息熵的角度探讨了工具调用对模型推理的影响。研究结果表明，工具调用结果导致后续推理的信息熵发生明显变化，推理链的整体熵根据工具调用的次数而变化。基于这些见解，我们提出了Tool-Light框架，旨在鼓励LLM高效准确地执行TIR。我们的框架包括数据集构建和多阶段微调。对于数据集构建，我们采用使用微调模型的连续自进化采样，整合了vanilla采样和熵引导采样。此外，我们为采样期间选择正负样本对建立了严格的标准。训练过程包括一个两阶段方法，包括监督微调(SFT)和自进化直接偏好优化(DPO)。在10个数据集上的实验结果证明了Tool-Light的有效性，显著提高了模型执行TIR任务的效率。

🔬 方法详解

问题定义：论文旨在解决大型语言模型在工具集成推理(TIR)中表现出的效率和准确性问题。现有方法常常导致模型工具使用不足或过度，以及在工具调用后出现过度思考的情况，无法充分利用外部工具来增强推理能力。这些问题阻碍了LLM在复杂任务中的应用。

核心思路：论文的核心思路是通过分析工具调用对推理过程信息熵的影响，来指导模型的训练。具体来说，工具调用会显著改变后续推理的信息熵，而推理链的整体熵与工具调用次数相关。基于此，论文提出利用信息熵来指导数据集的构建和模型的微调，从而鼓励模型更高效、更准确地使用工具。

技术框架：Tool-Light框架包含两个主要部分：数据集构建和多阶段微调。数据集构建采用连续自进化采样，整合了vanilla采样和熵引导采样，并使用严格的标准选择正负样本对。多阶段微调包括监督微调(SFT)和自进化直接偏好优化(DPO)。SFT阶段使用高质量的工具集成推理数据来初始化模型，DPO阶段则通过偏好学习来进一步优化模型的工具使用策略。

关键创新：该论文的关键创新在于将信息熵的概念引入到工具集成推理的训练过程中。通过分析工具调用对信息熵的影响，论文能够更有效地指导数据集的构建和模型的微调，从而提高模型的工具使用效率和准确性。此外，自进化采样策略能够不断生成高质量的训练数据，进一步提升模型的性能。

关键设计：在数据集构建阶段，论文设计了熵引导采样策略，根据推理链的信息熵来选择更有价值的样本。在DPO阶段，论文使用自进化采样生成的数据来训练模型，并设计了合适的奖励函数来鼓励模型更高效、更准确地使用工具。具体的参数设置和损失函数细节在论文中有详细描述，但此处不便展开。

🖼️ 关键图片

📊 实验亮点

Tool-Light在10个数据集上的实验结果表明，该框架能够显著提高LLM执行TIR任务的效率。具体性能数据和对比基线在论文中给出，总体而言，Tool-Light在工具使用效率和推理准确性方面均取得了显著提升，验证了其有效性。

🎯 应用场景

该研究成果可应用于各种需要LLM与外部工具交互的场景，例如智能客服、自动化报告生成、科学研究辅助等。通过提高LLM的工具使用效率和准确性，可以显著提升这些应用的性能和用户体验，并降低计算成本。未来，该方法有望推广到更广泛的工具集成推理任务中。

📄 摘要（原文）

Tool-Integrated Reasoning (TIR) enables large language models (LLMs) to improve their internal reasoning ability by integrating external tools. However, models employing TIR often display suboptimal behaviors, such as insufficient or excessive tool usage and overthinking after tool calls. The challenge of incentivizing LLMs to perform TIR efficiently and accurately, while stabilizing the reasoning process, remains an open question. In this paper, we start by exploring the impact of tool calls on model reasoning from the perspective of information entropy. Our findings indicate that tool call results lead to a distinct change in the information entropy of subsequent reasoning, with the overall entropy of the reasoning chain varying based on the number of tool calls. Building on these insights, we propose Tool-Light, a framework designed to encourage LLMs to perform TIR efficiently and accurately. Our framework includes dataset construction and multi-stage fine-tuning. For dataset construction, we employ continuous self-evolved sampling using the fine-tuned model, integrating both vanilla sampling and entropy-guided sampling. Besides, we establish strict criteria for selecting positive-negative pairs during sampling. The training process involves a two-stage approach, comprising Supervised Fine-Tuning (SFT) and Self-Evolved Direct Preference Optimization (DPO). Experimental results on 10 datasets demonstrate the effectiveness of Tool-Light, significantly improving the model's efficiency in executing TIR tasks.

Toward Effective Tool-Integrated Reasoning via Self-Evolved Preference Learning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理