Tool-Aware Optimization with Entropy Guidance for Efficient Agentic Reinforcement Learning

📄 arXiv: 2606.03762v1 📥 PDF

作者: Hongye Cao, Nuo Yan, Haoyuan Deng, Ziwei Wang, Tianpei Yang, Jing Huo, Yuyao Zhang, Yang Gao

分类: cs.LG, cs.AI

发布日期: 2026-06-02


💡 一句话要点

提出TAO-RL框架以解决工具使用导致的强化学习不稳定问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 代理强化学习 工具感知 熵引导 策略优化 轨迹过滤 推理能力 大型语言模型

📋 核心要点

  1. 现有的代理强化学习方法在工具使用时常面临训练不稳定的问题,导致推理能力下降。
  2. 本文提出的TAO-RL框架通过工具感知的轨迹过滤和熵引导的探索来优化策略,提升训练效果。
  3. 在多个推理基准测试中,TAO-RL展示了显著的性能提升,超越了现有的强化学习方法。

📝 摘要(中文)

代理强化学习(RL)赋予大型语言模型(LLMs)工具使用能力,显著提升复杂任务的推理能力。然而,外部工具的整合常常导致训练不稳定:过度依赖工具可能引起输入分布的偏移,而过于保守的工具使用则限制了有效的探索。为了解决这一问题,本文提出了统一框架TAO-RL,该框架结合了工具感知的轨迹过滤与熵引导的探索,以实现高效的策略优化。具体而言,TAO-RL在数据层面上通过两个标准过滤回滚轨迹:丢弃所有工具调用未能执行的轨迹,以及移除所有回滚结果均为正确或错误的轨迹。这样可以保留既具工具能力又富有信息的数据,建立高质量的训练分布。在算法层面,我们引入了工具感知的熵引导奖励,重塑工具调用后标记的优势函数,鼓励策略在关键决策点探索更多样的推理路径。实验表明,TAO-RL在7个具有挑战性的推理基准上表现优于现有方法。

🔬 方法详解

问题定义:本文旨在解决代理强化学习中工具使用导致的训练不稳定问题。现有方法在工具依赖和保守使用之间难以平衡,导致输入分布偏移和探索不足。

核心思路:TAO-RL框架结合工具感知的轨迹过滤与熵引导的探索,旨在保留有效的训练数据并鼓励多样化的推理路径,从而提高策略优化的效率。

技术框架:TAO-RL的整体架构包括两个主要模块:工具感知的轨迹过滤模块和熵引导的探索模块。轨迹过滤模块负责筛选有效的回滚轨迹,而熵引导模块则在关键决策点引入奖励机制,促进多样化探索。

关键创新:TAO-RL的创新在于其联合使用轨迹过滤和熵引导探索,这一设计使得训练数据既具备工具使用能力,又能提供丰富的学习信号,显著改善了现有方法的不足。

关键设计:在轨迹过滤中,TAO-RL设定了两个标准:一是丢弃所有工具调用失败的轨迹,二是移除所有结果一致的轨迹。此外,熵引导奖励在工具调用后进行调整,重塑优势函数,鼓励策略在决策时进行多样化探索。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在7个具有挑战性的推理基准上,TAO-RL相较于现有方法表现出显著的性能提升,具体提升幅度达到XX%(具体数据未知),证明了其在工具使用和策略优化方面的有效性。

🎯 应用场景

该研究的潜在应用领域包括智能助手、自动化决策系统和复杂任务的推理模型。通过提升工具使用的有效性和稳定性,TAO-RL能够在实际应用中实现更高效的任务处理和决策支持,未来可能对人机协作和智能系统的设计产生深远影响。

📄 摘要(原文)

Agentic reinforcement learning (RL) equips large language models (LLMs) with tool-use capabilities that substantially improve reasoning on complex tasks. However, integrating external tools often destabilizes training: over-reliance on tools can induce input distribution shift, while overly conservative tool use limits effective exploration. To address this issue, we propose a unified framework TAO-RL that couples tool-aware trajectory filtering with entropy-guided exploration for efficient policy optimization. Specifically, at the data level, TAO-RL filters rollout trajectories along two criteria: discarding those where all tool invocations fail to execute, and removing those where all rollouts are either correct or incorrect, as both cases yield degenerate advantage estimates that contribute no discriminative learning signal. This joint filtering retains data that are both tool-capable and informative, establishing a high-quality training distribution. At the algorithmic level, we introduce a tool-aware entropy-guided bonus that reshapes the advantage function at post-tool-call tokens, encouraging the policy to explore more diverse reasoning paths at critical decision points. These two components are mutually reinforcing: trajectory filtering establishes a clean and informative training foundation, while entropy-guided exploration drives stronger reasoning behaviors at critical tool-interaction junctures. Extensive experiments on 7 challenging reasoning benchmarks across 3 model scales demonstrate the superiority of TAO-RL over existing methods.