AdaTIR: Adaptive Tool-Integrated Reasoning via Difficulty-Aware Policy Optimization

作者: Zhaiyu Fang, Ruipeng Sun

分类: cs.CL

发布日期: 2026-01-21

备注: under review

💡 一句话要点

提出AdaTIR以解决工具调用冗余问题

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 工具集成推理 难度感知 推理内化 效率奖励 剪切优势塑形 大型语言模型 智能代理

📋 核心要点

现有方法在简单任务中冗余调用外部工具，导致效率低下和认知负担。
AdaTIR框架通过难度感知的效率奖励，动态调整工具预算，实现推理内化。
实验证明，AdaTIR在保持准确性的同时，显著减少工具调用次数，提升了性能。

📝 摘要（中文）

工具集成推理（TIR）显著增强了大型语言模型（LLMs）的能力，但现有代理往往表现出认知卸载，冗余调用外部工具。本文提出AdaTIR框架，转变为基于难度的推理内化，通过引入难度感知效率奖励，动态调整工具预算。我们还提出了剪切优势塑形（CAS）来解决工具惩罚过重的问题，确保正确性为主要目标。实验证明，AdaTIR在简单任务上减少工具调用高达97.6%，在复杂任务上减少28.2%，同时保持或提升准确性。

🔬 方法详解

问题定义：本文旨在解决现有工具集成推理方法中，代理在简单任务中冗余调用外部工具的问题。这种认知卸载导致效率低下，影响了模型的智能表现。

核心思路：AdaTIR框架的核心思想是通过难度感知的效率奖励，动态调整工具的使用策略，内化简单任务的推理过程，同时在复杂任务中选择性调用工具。

技术框架：AdaTIR的整体架构包括任务复杂度评估模块、工具预算调整模块和推理内化模块。任务复杂度评估模块负责判断任务的难度，工具预算调整模块根据评估结果动态分配工具使用，而推理内化模块则处理简单任务的推理过程。

关键创新：最重要的技术创新在于引入了难度感知效率奖励和剪切优势塑形（CAS），确保在追求效率的同时，正确性依然是主要目标。这一设计与现有方法的静态工具调用策略形成鲜明对比。

关键设计：在设计中，难度感知效率奖励通过评估任务复杂度来调整工具预算，CAS则通过限制惩罚的方式，避免了对正确结果的负面影响。具体的损失函数和网络结构设计确保了模型在不同任务上的适应性。

🖼️ 关键图片

📊 实验亮点

实验结果显示，AdaTIR在简单任务上减少工具调用次数高达97.6%，在复杂任务上减少28.2%。同时，模型在AIME 2024基准测试中超越基线4.8%，即使在严格禁用工具访问的情况下，依然保持或提升了准确性。

🎯 应用场景

AdaTIR框架具有广泛的应用潜力，尤其在需要高效推理的智能代理系统中，如自动客服、智能助手和复杂决策支持系统。其动态调整工具使用的能力，可以显著提升系统的响应速度和准确性，未来可能对人机交互和自动化领域产生深远影响。

📄 摘要（原文）

Tool-Integrated Reasoning (TIR) has significantly enhanced the capabilities of Large Language Models (LLMs), yet current agents tend to exhibit cognitive offloading, redundantly invoking external tools even for simple tasks. In this paper, we suggest that true agentic intelligence requires not just tool invocation, but the adaptive wisdom to discern when to use them. We propose AdaTIR, a framework that shifts the paradigm from static tool invocation to difficulty-aware reasoning internalization. By introducing a difficulty-aware efficiency reward, AdaTIR dynamically adjusts tool budgets based on task complexity--internalizing reasoning for simple tasks while selectively invoking tools for complex tasks. Furthermore, we identify a sign reversal problem where tool penalties outweigh correctness rewards, mistakenly penalizing correct rollouts with negative advantages. To resolve this, we propose Clipped Advantage Shaping (CAS), which ensures that correctness remains the primary objective while using efficiency as a secondary constraint. Empirical results demonstrate that AdaTIR reduces tool calls by up to 97.6% on simple tasks and 28.2% on complex challenges while maintaining or enhancing accuracy. Notably, AdaTIR successfully internalizes reasoning, outperforming baselines by 4.8% on AIME 2024 even when tool access is strictly disabled.

AdaTIR: Adaptive Tool-Integrated Reasoning via Difficulty-Aware Policy Optimization

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理