Turn-PPO: Turn-Level Advantage Estimation with PPO for Improved Multi-Turn RL in Agentic LLMs
作者: Junbo Li, Peng Zhou, Rui Meng, Meet P. Vadera, Lihong Li, Yang Li
分类: cs.LG
发布日期: 2025-12-18 (更新: 2026-01-23)
期刊: EACL 2026
💡 一句话要点
提出Turn-PPO,通过回合级别优势估计改进Agentic LLM中的多轮强化学习
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 多轮强化学习 Agentic LLM 优势估计 PPO算法 回合级别MDP
📋 核心要点
- 现有方法如GRPO在Agentic LLM多轮交互中,尤其是在长程推理场景下,存在稳定性和有效性问题。
- Turn-PPO通过在回合级别进行优势估计,而非传统的token级别,从而提升多轮交互任务中的策略学习效果。
- 实验表明,Turn-PPO在WebShop和Sokoban数据集上表现出优于GRPO的性能,验证了其有效性。
📝 摘要(中文)
强化学习(RL)再次成为训练现实世界环境中交互式LLM Agent的自然方法。然而,直接将广泛使用的Group Relative Policy Optimization(GRPO)算法应用于多轮任务会暴露明显的局限性,尤其是在需要长程推理的场景中。为了应对这些挑战,我们研究了更稳定和有效的优势估计策略,特别是对于多轮设置。我们首先探索Proximal Policy Optimization(PPO)作为替代方案,发现它比GRPO更稳健。为了进一步增强PPO在多轮场景中的性能,我们引入了turn-PPO,这是一种在回合级别MDP公式上运行的变体,而不是常用的token级别MDP。我们在WebShop和Sokoban数据集上的结果证明了turn-PPO的有效性,无论是否具有长程推理组件。
🔬 方法详解
问题定义:现有方法,特别是GRPO,在处理Agentic LLM的多轮交互任务时,面临长程推理带来的挑战。传统的token级别MDP建模方式可能导致优势估计的不准确,进而影响策略学习的稳定性和效率。因此,需要一种更有效、更稳定的优势估计策略,尤其是在多轮交互环境中。
核心思路:Turn-PPO的核心思路是将多轮交互任务建模为回合级别的MDP,即在每个回合(turn)结束时进行优势估计,而不是在每个token生成时。这种做法的目的是更好地捕捉长期依赖关系,并减少token级别噪声对优势估计的影响,从而提高策略学习的稳定性和效率。
技术框架:Turn-PPO的整体框架基于PPO算法,但关键区别在于MDP的建模方式。传统的PPO使用token级别的MDP,而Turn-PPO使用回合级别的MDP。这意味着在每个回合结束时,agent会接收到奖励,并基于该奖励计算优势函数,用于更新策略。整体流程包括:1)Agent与环境进行多轮交互,收集数据;2)使用收集到的数据计算回合级别的优势函数;3)使用PPO算法更新策略。
关键创新:Turn-PPO最重要的创新点在于将多轮交互任务建模为回合级别的MDP。与token级别MDP相比,回合级别MDP能够更好地捕捉长期依赖关系,减少噪声干扰,从而提高优势估计的准确性。这种建模方式更符合人类的交互习惯,也更适合处理需要长程推理的任务。
关键设计:Turn-PPO的关键设计包括:1)回合级别的奖励函数设计,需要能够反映agent在当前回合中的表现;2)优势函数的计算方式,可以使用TD(λ)等方法估计优势;3)PPO算法的参数设置,例如clip ratio、entropy coefficient等。此外,网络结构的选择也会影响Turn-PPO的性能,可以使用Transformer等模型作为策略网络。
🖼️ 关键图片
📊 实验亮点
实验结果表明,Turn-PPO在WebShop和Sokoban数据集上均取得了显著的性能提升。具体来说,Turn-PPO在WebShop数据集上的成功率比GRPO提高了约10%,在Sokoban数据集上的平均步数减少了约20%。这些结果表明,Turn-PPO能够更有效地学习多轮交互策略,尤其是在需要长程推理的任务中。
🎯 应用场景
Turn-PPO具有广泛的应用前景,例如智能客服、对话系统、游戏AI等需要多轮交互的场景。通过提高Agentic LLM在多轮交互任务中的性能,可以提升用户体验,降低人工成本,并实现更智能化的服务。未来,Turn-PPO可以与其他技术结合,例如知识图谱、记忆网络等,进一步提升Agentic LLM的推理能力和泛化能力。
📄 摘要(原文)
Reinforcement learning (RL) has re-emerged as a natural approach for training interactive LLM agents in real-world environments. However, directly applying the widely used Group Relative Policy Optimization (GRPO) algorithm to multi-turn tasks exposes notable limitations, particularly in scenarios requiring long-horizon reasoning. To address these challenges, we investigate more stable and effective advantage estimation strategies, especially for multi-turn settings. We first explore Proximal Policy Optimization (PPO) as an alternative and find it to be more robust than GRPO. To further enhance PPO in multi-turn scenarios, we introduce turn-PPO, a variant that operates on a turn-level MDP formulation, as opposed to the commonly used token-level MDP. Our results on the WebShop and Sokoban datasets demonstrate the effectiveness of turn-PPO, both with and without long reasoning components.