RAGEN: Understanding Self-Evolution in LLM Agents via Multi-Turn Reinforcement Learning
作者: Zihan Wang, Kangrui Wang, Qineng Wang, Pingyue Zhang, Linjie Li, Zhengyuan Yang, Xing Jin, Kefan Yu, Minh Nhat Nguyen, Licheng Liu, Eli Gottlieb, Yiping Lu, Kyunghyun Cho, Jiajun Wu, Li Fei-Fei, Lijuan Wang, Yejin Choi, Manling Li
分类: cs.LG, cs.AI, cs.CL
发布日期: 2025-04-24 (更新: 2025-05-26)
🔗 代码/项目: GITHUB
💡 一句话要点
RAGEN:通过多轮强化学习理解LLM Agent的自我进化
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: LLM Agent 强化学习 多轮交互 策略优化 回声陷阱
📋 核心要点
- 现有方法在多轮Agent强化学习训练方面探索不足,面临长程决策和随机环境反馈的挑战。
- 论文提出StarPO框架,用于轨迹级Agent强化学习,并构建RAGEN系统用于训练和评估LLM Agent。
- 实验发现“回声陷阱”现象,并提出StarPO-S稳定变体解决;同时强调奖励信号对Agent推理能力的重要性。
📝 摘要(中文)
将大型语言模型(LLM)训练为交互式Agent面临独特的挑战,包括长程决策和与随机环境反馈的交互。虽然强化学习(RL)在静态任务中取得了进展,但多轮Agent RL训练仍未被充分探索。我们提出了StarPO(状态-思考-行动-奖励策略优化),这是一个用于轨迹级Agent RL的通用框架,并介绍了RAGEN,一个用于训练和评估LLM Agent的模块化系统。我们对四个程式化环境的研究揭示了三个核心发现。首先,我们的Agent RL训练显示出一种反复出现的“回声陷阱”模式,其中奖励方差急剧下降且梯度激增;我们通过StarPO-S(一种具有轨迹过滤、评论家整合和梯度稳定的稳定变体)解决了这个问题。其次,我们发现RL rollout的塑造将受益于多样化的初始状态、适中的交互粒度和更频繁的采样。第三,我们表明,如果没有细粒度的、具有推理意识的奖励信号,Agent推理几乎不会通过多轮RL出现,并且它们可能会表现出肤浅的策略或虚构的想法。代码和环境可在https://github.com/RAGEN-AI/RAGEN获得。
🔬 方法详解
问题定义:论文旨在解决LLM Agent在多轮交互环境中进行强化学习训练时遇到的困难。现有方法在处理长程依赖、探索复杂状态空间以及避免训练不稳定等方面存在不足,尤其是在奖励信号稀疏或具有误导性时,Agent难以学习有效的策略。
核心思路:论文的核心思路是通过轨迹级别的强化学习,更有效地利用环境反馈来指导Agent的学习。通过引入“思考”步骤,使Agent在行动前进行推理,从而更好地理解环境状态和规划未来行动。同时,通过稳定训练过程,避免“回声陷阱”等问题,提高Agent的学习效率和泛化能力。
技术框架:RAGEN系统包含以下主要模块:1) 环境模拟器:用于模拟Agent交互的环境;2) Agent模型:基于LLM,负责接收环境状态并输出行动;3) 奖励函数:根据Agent的行动和环境状态,提供奖励信号;4) StarPO算法:用于更新Agent的策略,优化其在环境中的表现。StarPO-S是StarPO的稳定版本,增加了轨迹过滤、评论家整合和梯度稳定等机制。
关键创新:论文的关键创新在于提出了StarPO和StarPO-S算法,以及RAGEN系统。StarPO通过轨迹级别的策略优化,更有效地利用环境反馈。StarPO-S通过稳定训练过程,解决了“回声陷阱”等问题。RAGEN系统提供了一个模块化的平台,方便研究人员进行LLM Agent的训练和评估。
关键设计:StarPO算法的关键设计包括:1) 状态-思考-行动-奖励(Star)循环:Agent首先观察环境状态,然后进行思考,接着采取行动,最后获得奖励;2) 轨迹级别的策略优化:根据整个轨迹的奖励来更新Agent的策略;3) 评论家整合:使用评论家网络来估计状态的价值,从而更准确地评估Agent的行动;4) 梯度稳定:通过梯度裁剪等技术,避免梯度爆炸或消失。
🖼️ 关键图片
📊 实验亮点
实验结果表明,StarPO-S算法能够有效解决“回声陷阱”问题,并显著提高Agent的学习效率和性能。在四个程式化环境中,使用StarPO-S训练的Agent能够学习到更有效的策略,并取得更好的奖励。此外,实验还表明,细粒度的、具有推理意识的奖励信号对于Agent推理能力的培养至关重要。
🎯 应用场景
该研究成果可应用于各种需要智能Agent进行多轮交互的场景,例如对话系统、游戏AI、机器人控制、自动化客服等。通过强化学习训练,Agent可以学习到更有效的策略,从而更好地完成任务,提高用户体验,并降低人工成本。未来,该技术有望在智能家居、自动驾驶等领域发挥重要作用。
📄 摘要(原文)
Training large language models (LLMs) as interactive agents presents unique challenges including long-horizon decision making and interacting with stochastic environment feedback. While reinforcement learning (RL) has enabled progress in static tasks, multi-turn agent RL training remains underexplored. We propose StarPO (State-Thinking-Actions-Reward Policy Optimization), a general framework for trajectory-level agent RL, and introduce RAGEN, a modular system for training and evaluating LLM agents. Our study on four stylized environments reveals three core findings. First, our agent RL training shows a recurring mode of Echo Trap where reward variance cliffs and gradient spikes; we address this with StarPO-S, a stabilized variant with trajectory filtering, critic incorporation, and gradient stabilization. Second, we find the shaping of RL rollouts would benefit from diverse initial states, medium interaction granularity and more frequent sampling. Third, we show that without fine-grained, reasoning-aware reward signals, agent reasoning hardly emerge through multi-turn RL and they may show shallow strategies or hallucinated thoughts. Code and environments are available at https://github.com/RAGEN-AI/RAGEN.