Agentic Reinforced Policy Optimization

📄 arXiv: 2507.19849v1 📥 PDF

作者: Guanting Dong, Hangyu Mao, Kai Ma, Licheng Bao, Yifei Chen, Zhongyuan Wang, Zhongxia Chen, Jiazhen Du, Huiyang Wang, Fuzheng Zhang, Guorui Zhou, Yutao Zhu, Ji-Rong Wen, Zhicheng Dou

分类: cs.LG, cs.AI, cs.CL

发布日期: 2025-07-26

备注: Working on progress

🔗 代码/项目: GITHUB


💡 一句话要点

提出Agentic Reinforced Policy Optimization (ARPO)以提升LLM在多轮工具交互推理中的性能。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 强化学习 大型语言模型 工具交互 自适应Rollout 优势归因

📋 核心要点

  1. 现有强化学习算法难以平衡LLM的长程推理能力和多轮工具交互能力,导致性能瓶颈。
  2. ARPO通过熵驱动的自适应rollout机制,动态调整采样策略,增强工具使用后的探索能力。
  3. 实验表明,ARPO在多个推理任务上超越现有算法,且仅需一半的工具使用预算。

📝 摘要(中文)

大规模强化学习与可验证奖励(RLVR)已展示了其在利用大型语言模型(LLM)进行单轮推理任务方面的有效性。在实际推理场景中,LLM通常可以利用外部工具来辅助解决任务。然而,当前的强化学习算法未能充分平衡模型固有的长程推理能力及其在多轮工具交互中的熟练程度。为了弥合这一差距,我们提出Agentic Reinforced Policy Optimization (ARPO),这是一种为训练基于LLM的多轮Agent量身定制的新型Agent强化学习算法。通过初步实验,我们观察到LLM在与外部工具交互后,倾向于表现出高度不确定的行为,其特征是生成token的熵分布增加。受此观察的启发,ARPO结合了一种基于熵的自适应rollout机制,动态平衡全局轨迹采样和步级采样,从而促进工具使用后高不确定性步骤的探索。通过整合优势归因估计,ARPO使LLM能够内化逐步工具使用交互中的优势差异。我们在计算推理、知识推理和深度搜索领域的13个具有挑战性的基准测试中进行的实验表明,ARPO优于轨迹级强化学习算法。值得注意的是,ARPO仅使用现有方法所需工具使用预算的一半即可实现性能提升,为LLM-based Agent与实时动态环境的对齐提供了一种可扩展的解决方案。

🔬 方法详解

问题定义:现有基于LLM的Agent在多轮推理任务中,尤其是在需要频繁与外部工具交互的场景下,面临着探索效率低下的问题。传统的强化学习方法难以有效平衡LLM固有的推理能力和工具使用能力,导致模型在工具交互后容易陷入局部最优,无法充分利用工具带来的优势。现有方法通常采用trajectory-level的奖励机制,无法有效区分每一步工具使用的贡献,导致学习效率低下。

核心思路:ARPO的核心思路是根据LLM在工具交互后的不确定性(熵)动态调整rollout策略。具体来说,当LLM与工具交互后,如果生成token的熵较高,表明模型对下一步行动的不确定性较大,此时ARPO会增加step-level的采样,鼓励模型探索更多可能性。反之,如果熵较低,则采用global trajectory sampling,利用已有的经验进行优化。这种自适应的rollout机制能够更有效地利用有限的计算资源,提升探索效率。

技术框架:ARPO的整体框架包括以下几个主要模块:1) LLM Agent:负责与环境交互,生成动作序列。2) 外部工具:提供外部知识或计算能力,辅助Agent完成任务。3) 熵计算模块:计算LLM生成token的熵,用于评估模型的不确定性。4) 自适应Rollout机制:根据熵值动态调整采样策略,平衡global trajectory sampling和step-level sampling。5) 优势归因估计模块:估计每一步工具使用的优势,用于指导策略优化。6) 策略优化模块:利用强化学习算法(如PPO)更新LLM的策略。

关键创新:ARPO的关键创新在于其熵驱动的自适应rollout机制和优势归因估计。传统的强化学习方法通常采用固定的rollout策略,无法根据LLM的状态动态调整。ARPO通过引入熵的概念,能够更准确地评估LLM的不确定性,并根据不确定性动态调整采样策略,从而提升探索效率。此外,ARPO的优势归因估计能够更精确地评估每一步工具使用的贡献,避免了trajectory-level奖励带来的credit assignment问题。

关键设计:ARPO的关键设计包括:1) 熵的计算方式:采用交叉熵或KL散度等方法计算LLM生成token的熵。2) 自适应Rollout策略:根据熵值设定一个阈值,当熵值高于阈值时,采用step-level sampling;否则,采用global trajectory sampling。3) 优势归因估计:采用TD-error或GAE等方法估计每一步工具使用的优势。4) 策略优化算法:采用PPO等on-policy算法更新LLM的策略,确保策略更新的稳定性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,ARPO在13个具有挑战性的基准测试中显著优于传统的轨迹级强化学习算法。尤其值得注意的是,ARPO仅使用现有方法一半的工具使用预算,即可实现性能提升,这表明ARPO具有更高的效率和可扩展性。在某些任务上,ARPO的性能提升幅度超过10%。

🎯 应用场景

ARPO具有广泛的应用前景,可应用于需要LLM与外部工具进行多轮交互的各种场景,例如智能客服、自动代码生成、科学研究辅助等。该方法能够提升LLM在复杂任务中的解决能力,降低对人工干预的依赖,并有望推动LLM在实际应用中的普及。

📄 摘要(原文)

Large-scale reinforcement learning with verifiable rewards (RLVR) has demonstrated its effectiveness in harnessing the potential of large language models (LLMs) for single-turn reasoning tasks. In realistic reasoning scenarios, LLMs can often utilize external tools to assist in task-solving processes. However, current RL algorithms inadequately balance the models' intrinsic long-horizon reasoning capabilities and their proficiency in multi-turn tool interactions. To bridge this gap, we propose Agentic Reinforced Policy Optimization (ARPO), a novel agentic RL algorithm tailored for training multi-turn LLM-based agents. Through preliminary experiments, we observe that LLMs tend to exhibit highly uncertain behavior, characterized by an increase in the entropy distribution of generated tokens, immediately following interactions with external tools. Motivated by this observation, ARPO incorporates an entropy-based adaptive rollout mechanism, dynamically balancing global trajectory sampling and step-level sampling, thereby promoting exploration at steps with high uncertainty after tool usage. By integrating an advantage attribution estimation, ARPO enables LLMs to internalize advantage differences in stepwise tool-use interactions. Our experiments across 13 challenging benchmarks in computational reasoning, knowledge reasoning, and deep search domains demonstrate ARPO's superiority over trajectory-level RL algorithms. Remarkably, ARPO achieves improved performance using only half of the tool-use budget required by existing methods, offering a scalable solution for aligning LLM-based agents with real-time dynamic environments. Our code and datasets are released at https://github.com/dongguanting/ARPO