Acting Less is Reasoning More! Teaching Model to Act Efficiently

📄 arXiv: 2504.14870v2 📥 PDF

作者: Hongru Wang, Cheng Qian, Wanjun Zhong, Xiusi Chen, Jiahao Qiu, Shijue Huang, Bowen Jin, Mengdi Wang, Kam-Fai Wong, Heng Ji

分类: cs.AI, cs.CL

发布日期: 2025-04-21 (更新: 2025-05-31)


💡 一句话要点

提出OTC-PO,提升工具集成推理中LLM的效率,减少冗余工具调用。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 工具集成推理 大型语言模型 强化学习 策略优化 认知卸载

📋 核心要点

  1. 现有工具集成推理方法过度依赖外部工具,导致计算成本高昂,并阻碍模型内部推理能力的发展。
  2. OTC-PO通过引入工具集成奖励,鼓励模型在保证答案准确性的前提下,尽可能减少工具调用。
  3. 实验表明,OTC-PO显著减少了工具调用次数,提高了工具生产力,同时保持了与基线相当的答案准确性。

📝 摘要(中文)

工具集成推理(TIR)通过赋予大型语言模型(LLM)调用外部工具(如搜索引擎和代码解释器)的能力来增强其长文本推理能力,从而解决超出内部推理能力的任务。虽然强化学习(RL)在训练此类智能体方面显示出希望,但现有方法通常只优化最终正确性,而不考虑外部工具使用的效率或必要性。这通常导致过度的工具调用,产生高昂的计算成本,并阻碍内部推理能力的发展,即所谓的“认知卸载”。为此,我们提出了一种基于RL的简单而有效的框架——最优工具调用控制策略优化(OTC-PO),该框架鼓励模型以最少的工具调用产生准确的答案。我们的方法引入了一种工具集成奖励,该奖励共同考虑了答案的正确性以及模型为获得该答案而使用的工具行为。为了验证有效性,我们引入了“工具生产力”指标,定义为所有测试用例中正确答案的数量与工具调用总数的比率。该指标反映了工具使用对成功完成任务的贡献效率,值越高表示推理越智能、自主性越强。我们在近端策略优化(PPO)和群体相对偏好优化(GRPO)中实例化了这个框架,分别产生了OTC-PPO和OTC-GRPO。在Qwen-2.5和Qwen-Math上进行的跨多个QA基准的实验表明,我们的方法减少了高达68.3%的工具调用,并将工具生产力提高了高达215.4%,同时保持了相当的答案准确性。

🔬 方法详解

问题定义:现有工具集成推理方法在利用大型语言模型解决复杂问题时,过度依赖外部工具,例如搜索引擎和代码解释器。这种过度调用不仅增加了计算成本,还阻碍了模型自身内部推理能力的培养,导致“认知卸载”现象。因此,如何让模型更高效、更智能地使用工具,在保证准确性的前提下减少不必要的工具调用,是本文要解决的核心问题。

核心思路:本文的核心思路是通过强化学习,训练模型在工具调用过程中更加谨慎和高效。具体来说,设计一种工具集成奖励机制,该奖励不仅考虑答案的正确性,还考虑工具调用的次数和效率。通过这种奖励机制,引导模型学习在必要时才调用工具,并尽可能利用内部知识进行推理。

技术框架:OTC-PO框架基于强化学习,主要包含以下几个关键组成部分:1) 环境:模拟问题解决过程,提供问题和可用的工具;2) 智能体:即大型语言模型,负责生成答案并决定是否调用工具;3) 奖励函数:工具集成奖励,综合考虑答案正确性和工具使用情况;4) 策略优化算法:使用PPO或GRPO等算法,根据奖励信号更新智能体的策略。整体流程是,智能体与环境交互,根据当前状态选择动作(生成答案或调用工具),环境给出反馈(答案正确性、工具调用成本),智能体根据反馈更新策略,最终学习到高效的工具使用策略。

关键创新:本文最重要的创新在于提出了工具集成奖励机制,将工具使用的效率纳入了奖励函数的考量。与以往只关注答案正确性的方法不同,OTC-PO鼓励模型在保证准确性的前提下,尽可能减少工具调用,从而提高了工具的生产力。这种奖励机制能够有效避免模型过度依赖外部工具,促进内部推理能力的提升。

关键设计:工具集成奖励函数是关键设计之一,它通常由两部分组成:答案正确性奖励和工具使用惩罚。答案正确性奖励鼓励模型生成正确的答案,而工具使用惩罚则对每次工具调用进行惩罚,从而引导模型减少不必要的工具调用。具体形式可以是线性组合,例如:Reward = Accuracy - λ * ToolCalls,其中λ是一个超参数,用于控制工具使用惩罚的强度。此外,策略优化算法的选择也很重要,PPO和GRPO都是常用的强化学习算法,可以根据具体任务进行选择和调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,OTC-PO在Qwen-2.5和Qwen-Math等模型上,跨多个QA基准测试中,能够显著减少工具调用次数(高达68.3%),并大幅提高工具生产力(高达215.4%),同时保持与基线方法相当的答案准确性。这证明了OTC-PO在提升工具集成推理效率方面的有效性。

🎯 应用场景

该研究成果可广泛应用于需要工具集成推理的场景,例如智能问答、代码生成、科学计算等。通过提高工具使用效率,可以降低计算成本,提升用户体验,并促进大型语言模型在复杂任务中的应用。未来,该方法有望进一步扩展到更多类型的工具和更复杂的推理任务中。

📄 摘要(原文)

Tool-integrated reasoning (TIR) augments large language models (LLMs) with the ability to invoke external tools during long-form reasoning, such as search engines and code interpreters, to solve tasks beyond the capabilities of internal reasoning. While reinforcement learning (RL) has shown promise in training such agents, most of existing approaches typically optimize only for final correctness without considering the efficiency or necessity of external tool use. This often leads to excessive tool calling, incurring high computational costs and hindering the development of internal reasoning capabilities - a phenomenon known as \textit{cognitive offloading}. To this end, we propose Optimal Tool Call-controlled Policy Optimization (OTC-PO), a simple yet effective RL-based framework that encourages models to produce accurate answers with minimal tool calls. Our method introduces a tool-integrated reward that jointly considers answer correctness and corresponding tool use behavior of model to reach that answer. To validate the effectiveness, we introduce the metric of \textit{tool productivity}, defined as the ratio between the number of correct answers and the total number of tool calls across all test cases. This metric reflects how efficiently tool usage contributes to successful task completion, with higher values indicating smarter and more autonomous reasoning. We instantiate this framework within both Proximal Policy Optimization (PPO) and Group Relative Preference Optimization (GRPO), resulting in OTC-PPO and OTC-GRPO. Experiments with Qwen-2.5 and Qwen-Math across multiple QA benchmarks show that our approach reduces tool calls by up to 68.3\% and improves tool productivity by up to 215.4\%, while maintaining comparable answer accuracy.