Learning When Not to Act: Mitigating Tool Abuse in Agentic Reinforcement Learning

📄 arXiv: 2606.02132v1 📥 PDF

作者: Liuji Chen, Dianxing Tang, Xing Shi, Dingshuo Chen, Qiang Liu, Shu Wu, Liang Wang

分类: cs.AI

发布日期: 2026-06-01

备注: Under reivew


💡 一句话要点

EAPO:通过学习何时不行动来缓解Agentic强化学习中的工具滥用问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: Agentic强化学习 工具滥用 策略优化 奖励塑造 置信度感知

📋 核心要点

  1. Agentic强化学习中,智能体倾向于过度使用外部工具,即使内部推理足以解决问题,这降低了效率。
  2. EAPO框架通过引入无工具轨迹、难度感知奖励塑造和置信度感知token重加权,学习选择性地使用工具。
  3. 实验表明,EAPO在多个推理基准上显著提升了性能,同时减少了工具调用次数,实现了更好的效率-准确率平衡。

📝 摘要(中文)

Agentic强化学习可能导致工具滥用,即模型过度使用外部工具,即使对于可以通过内部推理解决的查询也是如此。现有的方法通过统一的工具使用惩罚或硬性限制来缓解这个问题,但这降低了工具的使用频率,同时也可能抑制有用的工具辅助探索。我们提出了EAPO,一个高效的Agentic策略优化框架,可以学习选择性地使用工具。EAPO在每个rollout组中引入无工具轨迹,应用难度感知的奖励塑造来惩罚主要在较容易的查询上的冗余工具调用,并使用置信度感知的token重加权来改进策略学习。在九个数学和知识密集型推理基准测试中,EAPO始终提高了Qwen2.5-3B、Qwen2.5-7B和Llama3.1-8B的准确性-效率权衡。与GRPO相比,EAPO将平均性能提高了10.45%、7.27%和9.69%,同时分别减少了18.33%、18.33%和24.59%的平均工具调用次数。这些结果表明,智能体可以在不影响工具集成推理的情况下学习何时不使用工具。

🔬 方法详解

问题定义:论文旨在解决Agentic强化学习中工具滥用问题,即智能体不必要地频繁使用外部工具,即使内部推理能力足以解决问题。现有方法如统一惩罚或硬性限制虽然能减少工具使用,但会抑制有益的工具辅助探索,影响整体性能。

核心思路:EAPO的核心思路是让智能体学会“何时不使用工具”,通过差异化对待不同难度的任务,对简单任务上的冗余工具调用进行惩罚,同时鼓励在复杂任务上合理使用工具。此外,利用置信度信息来优化策略学习,提升模型判断何时需要工具的能力。

技术框架:EAPO框架主要包含三个关键组成部分:1) 引入无工具轨迹:在每个rollout组中加入不使用工具的轨迹,让智能体学习在没有工具的情况下解决问题。2) 难度感知奖励塑造:根据任务的难度动态调整奖励,对简单任务上使用工具的行为进行惩罚,鼓励智能体优先使用内部推理。3) 置信度感知token重加权:利用模型对每个token的置信度信息,对策略学习过程中的token进行重加权,提高策略的稳定性和效率。

关键创新:EAPO的关键创新在于其选择性工具使用的学习机制。与现有方法一刀切的惩罚策略不同,EAPO能够根据任务难度和模型置信度,动态地调整工具使用的策略,从而在减少工具滥用的同时,保留了工具辅助推理的优势。

关键设计:难度感知奖励塑造通过一个难度估计器来判断任务的难度,并根据难度系数调整工具使用惩罚的力度。置信度感知token重加权则利用模型的softmax输出,对置信度较低的token赋予更高的权重,以鼓励模型探索更优的策略。具体的损失函数设计中,EAPO结合了策略梯度和置信度加权,以实现更有效的策略优化。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

EAPO在九个数学和知识密集型推理基准测试中,显著优于现有方法。例如,在Qwen2.5-3B模型上,EAPO的平均性能提升了10.45%,同时减少了18.33%的平均工具调用次数。在更大的Qwen2.5-7B和Llama3.1-8B模型上,EAPO也分别实现了7.27%和9.69%的性能提升,以及18.33%和24.59%的工具调用次数减少。这些结果表明EAPO能够有效地缓解工具滥用问题,并提升智能体的整体性能。

🎯 应用场景

EAPO框架可应用于各种需要智能体与外部工具交互的场景,例如智能客服、代码生成、科学研究等。通过减少不必要的工具调用,可以显著提高系统的效率和响应速度,降低计算成本。此外,EAPO的学习机制也有助于提升智能体的推理能力和决策水平,使其能够更好地适应复杂多变的环境。

📄 摘要(原文)

Agentic reinforcement learning can induce tool abuse, where models overuse external tools even for queries solvable by internal reasoning. Existing approaches mitigate this issue with uniform tool-use penalties or hard limits, which reduce tool frequency but may also suppress useful tool-assisted exploration. We propose EAPO, an Efficient Agentic Policy Optimization framework that learns selective tool use. EAPO introduces tool-free trajectories into each rollout group, applies difficulty-aware reward shaping to penalize redundant tool calls mainly on easier queries, and uses confidence-aware token reweighting to improve policy learning. Across nine mathematical and knowledge-intensive reasoning benchmarks, EAPO consistently improves the accuracy efficiency trade-off on Qwen2.5-3B, Qwen2.5-7B, and Llama3.1-8B. Compared with GRPO, EAPO improves average performance by 10.45%, 7.27%, and 9.69%, while reducing average tool calls by 18.33%, 18.33%, and 24.59%, respectively. These results show that agents can learn when not to use tools without compromising tool-integrated reasoning.