Efficient Agentic Reinforcement Learning with On-Policy Intrinsic Knowledge Boundary Enhancement
作者: Dingwei Chen, Zefang Zong, Zhipeng Ma, Leo Luo, Yang Li, Chengming Li, Peng Chen, Jie Jiang
分类: cs.CL
发布日期: 2026-05-26
🔗 代码/项目: GITHUB
💡 一句话要点
提出AKBE,通过动态探测知识边界,提升Agentic RL中LLM智能体的工具使用效率。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: Agentic强化学习 LLM智能体 工具使用 知识边界 在线学习 奖励塑造 监督信号
📋 核心要点
- Agentic RL训练中,LLM智能体常出现冗余工具调用,模糊了模型自身知识边界,导致不必要的资源浪费。
- AKBE通过双路径rollout动态探测知识边界,区分何时需要工具,并生成针对性的监督信号,指导高效工具使用。
- 实验表明,AKBE在多个QA基准上显著提升了任务准确率,并减少了工具调用次数,提高了工具使用效率。
📝 摘要(中文)
Agentic强化学习(RL)已被证明对训练具有外部工具使用能力的基于LLM的智能体有效。然而,我们发现agentic RL训练会导致越来越多的冗余工具调用,并模糊模型的内在知识边界,模型无法区分何时需要工具以及何时参数知识就足够了。现有的基于奖励塑造的解决方案创建了粗粒度的优化目标,倾向于激励不加区分的工具调用抑制,从而导致奖励利用。在本文中,我们提出AKBE(Agentic Knowledge Boundary Enhancement),这是一种在线方法,通过训练期间的双路径(有工具和无工具)rollout动态探测模型的内在知识边界。我们将知识边界定义为每个实例确定是否需要工具以及所需的最少工具调用次数。通过比较路径间的正确性,AKBE对轨迹进行分类,并构建有针对性的监督信号,指导每个问题的有效工具使用模式。这些信号无缝集成到agentic RL训练循环中。在七个QA基准上的实验表明,AKBE平均提高了+1.85的任务准确率,并比标准agentic RL减少了18%的工具调用,从而提高了25%的工具生产力,而没有任何准确率-效率的权衡。进一步的分析表明,它具有跨不同RL算法的即插即用兼容性以及每个信号类别的机制。
🔬 方法详解
问题定义:Agentic RL训练的LLM智能体,在工具使用上存在冗余调用问题,即在自身知识可以解决问题时,仍然倾向于调用外部工具。这不仅浪费资源,也模糊了模型自身知识的边界。现有方法如奖励塑造,往往采用粗粒度的优化目标,容易导致模型为了避免工具调用而牺牲准确率,产生reward hacking现象。
核心思路:AKBE的核心在于动态探测模型的内在知识边界,并以此为基础生成细粒度的监督信号。通过比较使用工具和不使用工具两种路径下的结果,判断模型是否真正需要调用工具。如果模型自身知识可以解决问题,则抑制工具调用;如果模型自身知识不足,则鼓励工具调用。
技术框架:AKBE是一个在线(on-policy)方法,集成到agentic RL训练循环中。主要包含以下几个步骤:1) 双路径Rollout:对于每个问题,分别进行有工具和无工具的rollout。2) 知识边界判定:比较两条路径的正确性,判断模型是否需要工具。3) 监督信号生成:根据知识边界判定的结果,生成针对性的监督信号,例如,如果无工具路径正确,则生成抑制工具调用的信号;如果无工具路径错误,但有工具路径正确,则生成鼓励工具调用的信号。4) 集成到RL训练:将这些监督信号集成到RL训练循环中,指导模型学习高效的工具使用策略。
关键创新:AKBE的关键创新在于其动态探测知识边界并生成细粒度监督信号的能力。与现有方法相比,AKBE能够更准确地判断模型是否需要工具,避免了粗粒度优化目标带来的问题。此外,AKBE是一种在线方法,能够根据模型的学习状态动态调整监督信号,提高了训练效率。
关键设计:AKBE的关键设计包括:1) 双路径Rollout:确保能够同时评估模型在有工具和无工具两种情况下的表现。2) 知识边界判定规则:定义了清晰的规则来判断模型是否需要工具,例如,只有在无工具路径错误,且有工具路径正确时,才认为模型需要工具。3) 监督信号的类型和强度:设计了不同类型的监督信号,例如,抑制工具调用的信号、鼓励工具调用的信号等,并根据具体情况调整信号的强度。
🖼️ 关键图片
📊 实验亮点
实验结果表明,AKBE在七个QA基准测试中,平均提高了1.85%的任务准确率,并减少了18%的工具调用次数。这意味着在不牺牲准确率的前提下,工具生产力提高了25%。此外,实验还验证了AKBE具有良好的即插即用兼容性,可以与不同的RL算法结合使用。消融实验分析了不同类型监督信号的作用机制。
🎯 应用场景
AKBE可广泛应用于各种需要LLM智能体与外部工具交互的场景,例如智能客服、自动化报告生成、科学研究助手等。通过提高工具使用效率,降低计算成本,并提升任务完成的准确性,具有重要的实际应用价值。未来,该方法可以进一步扩展到更复杂的工具使用场景,例如多工具协同、工具链构建等。
📄 摘要(原文)
Agentic reinforcement learning (RL) has proven effective for training LLM-based agents with external tool-use capabilities. However, we identify that agentic RL training induces increasing redundant tool calls and blurs the model's intrinsic knowledge boundary, where the model fails to distinguish when tools are needed versus when parametric knowledge suffices. Existing solutions based on reward shaping create coarse-grained optimization targets that tend to incentivize indiscriminate tool-call suppression, leading to reward hacking. In this paper, we propose AKBE (Agentic Knowledge Boundary Enhancement), an on-policy method that dynamically probes the model's intrinsic knowledge boundary through dual-path (with-tool and no-tool) rollouts during training. We define the knowledge boundary as the per-instance determination of whether tools are required and the minimum tool calls necessary. By comparing correctness across paths, AKBE categorizes trajectories and constructs targeted supervisory signals that guide efficient tool-use patterns for each question. These signals are integrated seamlessly into the agentic RL training loop. Experiments on seven QA benchmarks demonstrate that AKBE improves task accuracy by +1.85 on average and reduces tool calls by 18% over standard agentic RL, yielding 25% higher tool productivity without any accuracy-efficiency trade-off. Further analysis suggests its plug-and-play compatibility across different RL algorithms and the mechanism of each signal category. Our code is available at https://github.com/CuSO4-Chen/AKBE.