Demystifying Reinforcement Learning for Long-Horizon Tool-Using Agents: A Comprehensive Recipe
作者: Xixi Wu, Qianguo Sun, Ruiyang Zhang, Chao Song, Junlong Wu, Yiyan Qi, Hong Cheng
分类: cs.LG, cs.CL
发布日期: 2026-03-23
备注: Codes are available at https://github.com/WxxShirley/Agent-STAR
💡 一句话要点
针对长程工具使用Agent,提出基于强化学习的系统性方案,显著提升TravelPlanner性能。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 强化学习 长程规划 工具使用 Agentic任务 奖励塑造
📋 核心要点
- 现有方法难以在复杂、多轮环境中有效扩展强化学习,阻碍了大型语言模型发展为自主Agent。
- 论文通过系统性实验,探索奖励塑造、模型缩放等五个维度对Agentic RL的影响,提炼出实用方案。
- 实验表明,该方案在TravelPlanner上实现了SOTA性能,显著优于领先的LLM,验证了方案的有效性。
📝 摘要(中文)
强化学习(RL)对于将大型语言模型(LLM)发展为能够进行长程规划的自主Agent至关重要,但在复杂的多轮环境中扩展RL的实用方案仍然难以捉摸。本文使用TravelPlanner(一个需要工具编排以满足多方面约束的具有挑战性的测试平台)进行了一项系统的实证研究。我们沿着五个轴分解了Agentic RL的设计空间:奖励塑造、模型缩放、数据构成、算法选择和环境稳定性。我们的受控实验产生了7个关键结论,例如,(1)奖励和算法的选择依赖于模型规模,较小的模型受益于分阶段的奖励和增强的探索,而较大的模型可以通过更简单的密集奖励有效地收敛,(2)大约1K个具有平衡难度混合的训练样本标志着领域内和领域外性能的最佳点,以及(3)环境稳定性对于防止策略退化至关重要。基于我们提炼的方案,我们经过RL训练的模型在TravelPlanner上实现了最先进的性能,显著优于领先的LLM。
🔬 方法详解
问题定义:现有方法在复杂、多轮环境中,难以有效利用强化学习训练能够进行长程规划和工具使用的Agent。痛点在于缺乏系统性的设计方案,难以指导RL在Agentic任务中的应用,导致训练不稳定、效果不佳等问题。
核心思路:论文的核心思路是通过系统性的实验,解耦Agentic RL设计空间的各个维度(奖励塑造、模型缩放、数据构成、算法选择、环境稳定性),分析它们对最终性能的影响,从而提炼出一个可行的、可扩展的RL训练方案。通过控制变量,找到各个维度上的最佳实践。
技术框架:整体框架围绕TravelPlanner环境展开,通过强化学习训练Agent,使其学会使用各种工具完成旅行规划任务。主要模块包括:环境交互模块(Agent与TravelPlanner交互)、奖励计算模块(根据Agent的行为和结果计算奖励)、模型训练模块(使用强化学习算法更新Agent模型)。实验中,针对不同的模型规模、奖励函数、数据构成等进行对比实验。
关键创新:论文的关键创新在于其系统性的实验方法和对Agentic RL设计空间的解耦分析。不同于以往的经验性尝试,该论文通过控制变量,量化了各个因素对性能的影响,从而提炼出更具指导意义的结论。此外,论文还发现了奖励函数和算法选择对模型规模的依赖性,为不同规模的模型提供了更优的训练策略。
关键设计:论文的关键设计包括:(1)针对不同模型规模,设计了不同的奖励函数(小模型使用分阶段奖励,大模型使用密集奖励);(2)通过平衡不同难度的训练数据,提高模型的泛化能力;(3)通过环境稳定性控制,防止策略退化;(4)实验中使用了多种强化学习算法,并针对不同规模的模型选择了合适的算法。
🖼️ 关键图片
📊 实验亮点
实验结果表明,基于该论文提出的RL训练方案,模型在TravelPlanner上取得了SOTA性能,显著优于领先的LLM。具体而言,该方案在领域内和领域外的性能均有提升,并且在不同的模型规模下均表现出良好的效果。此外,实验还验证了环境稳定性对策略的重要性,强调了在训练过程中保持环境一致性的必要性。
🎯 应用场景
该研究成果可应用于各种需要长程规划和工具使用的Agentic任务,例如智能助理、自动化客服、机器人流程自动化等。通过借鉴该论文提出的方案,可以更有效地训练Agent,使其能够更好地完成复杂任务,提升工作效率和用户体验。未来,该研究可以进一步扩展到更复杂的环境和任务中,例如自动驾驶、智能制造等。
📄 摘要(原文)
Reinforcement Learning (RL) is essential for evolving Large Language Models (LLMs) into autonomous agents capable of long-horizon planning, yet a practical recipe for scaling RL in complex, multi-turn environments remains elusive. This paper presents a systematic empirical study using TravelPlanner, a challenging testbed requiring tool orchestration to satisfy multifaceted constraints. We decompose the agentic RL design space along 5 axes: reward shaping, model scaling, data composition, algorithm selection, and environmental stability. Our controlled experiments yield 7 key takeaways, e.g., (1) reward and algorithm choices are scale-dependent as smaller models benefit from staged rewards and enhanced exploration, whereas larger models converge efficiently with simpler dense rewards, (2) ~ 1K training samples with a balanced difficulty mixture mark a sweet spot for both in-domain and out-of-domain performance, and (3) environmental stability is critical to prevent policy degradation. Based on our distilled recipe, our RL-trained models achieve state-of-the-art performance on TravelPlanner, significantly outperforming leading LLMs.