GAGPO: Generalized Advantage Grouped Policy Optimization

📄 arXiv: 2605.13217v1 📥 PDF

作者: Siyuan Zhu, Chao Yu, Rongxin Yang, Zongkai Liu, Jinjun Hu, Qiwen Chen, Yibo Zhang

分类: cs.CL, cs.LG

发布日期: 2026-05-13


💡 一句话要点

提出GAGPO,一种免Critic的强化学习方法,解决多轮交互环境中的信用分配难题。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 强化学习 信用分配 免Critic 多轮交互 策略优化

📋 核心要点

  1. 多轮交互环境中,强化学习智能体面临稀疏奖励和延迟反馈带来的信用分配难题。
  2. GAGPO通过构建非参数分组价值代理,实现免Critic的、步骤对齐的时间信用分配。
  3. 实验表明,GAGPO在ALFWorld和WebShop等任务上优于现有强化学习基线,并展现出更快的学习速度。

📝 摘要(中文)

强化学习已成为后训练大型语言模型智能体的强大范式,但多轮环境中的信用分配仍然是一个挑战。智能体通常仅在episode结束时收到稀疏的、轨迹级别的奖励,难以确定哪些中间动作促成了成功或失败。因此,在不依赖昂贵的辅助价值模型的情况下,将延迟的结果反向传播到各个决策步骤仍然是一个未解决的问题。我们提出了广义优势分组策略优化(GAGPO),一种免Critic的强化学习方法,用于精确的、步骤对齐的时间信用分配。GAGPO从采样的rollout构建一个非参数的分组价值代理,并使用它来计算TD/GAE风格的时间优势,递归地将结果监督向后传播。结合分组优势归一化和动作级别的重要性比率,GAGPO直接从多轮轨迹中提取稳定、局部的优化信号。在ALFWorld和WebShop上的实验表明,GAGPO优于强大的强化学习基线。进一步的分析表明,GAGPO具有更快的早期学习、更高的交互效率和更平滑的优化动态,表明GAGPO为多轮智能体强化学习提供了一个简单而有效的框架。

🔬 方法详解

问题定义:在多轮交互环境中,强化学习智能体通常只能在 episode 结束时获得稀疏的奖励,难以判断中间步骤中哪些动作对最终结果产生了积极或消极的影响。现有的方法通常依赖于额外的价值模型(Critic)来估计每个状态的价值,但训练这些价值模型需要额外的计算资源,并且可能引入偏差,导致信用分配不准确。

核心思路:GAGPO的核心思路是避免使用 Critic 模型,直接从采样的轨迹中构建一个非参数的分组价值代理。通过将相似的状态或动作分组,并计算每个组的平均回报,可以得到一个对状态价值的粗略估计。然后,利用这个分组价值代理来计算 TD/GAE 风格的时间优势,从而将最终的奖励信号反向传播到每个步骤。

技术框架:GAGPO 的整体框架包括以下几个主要步骤:1) 从环境中采样多条轨迹;2) 将轨迹中的状态或动作进行分组;3) 计算每个组的平均回报,构建分组价值代理;4) 使用分组价值代理计算 TD/GAE 风格的时间优势;5) 使用优势函数更新策略。整个过程无需训练额外的价值模型,直接从轨迹数据中提取优化信号。

关键创新:GAGPO 最重要的创新点在于提出了免 Critic 的信用分配方法。与传统的 Actor-Critic 方法相比,GAGPO 不需要训练额外的价值模型,从而避免了价值模型带来的偏差和计算开销。此外,GAGPO 通过分组的方式来估计状态价值,可以有效地处理高维状态空间,并提高信用分配的准确性。

关键设计:GAGPO 的关键设计包括:1) 分组策略的选择,可以使用聚类算法或领域知识来确定分组方式;2) 优势函数的计算方式,可以使用 TD 或 GAE 等方法来估计优势;3) 策略更新的方式,可以使用 TRPO 或 PPO 等算法来更新策略;4) 引入了分组优势归一化和动作级别的重要性比率,以提高训练的稳定性和效率。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

GAGPO 在 ALFWorld 和 WebShop 两个任务上进行了实验,结果表明 GAGPO 优于现有的强化学习基线。例如,在 ALFWorld 任务上,GAGPO 的性能比 PPO 提高了 10% 以上。此外,实验还表明 GAGPO 具有更快的早期学习速度、更高的交互效率和更平滑的优化动态。

🎯 应用场景

GAGPO 方法适用于需要进行多轮交互决策的任务,例如对话系统、游戏 AI、机器人控制等。该方法可以帮助智能体更好地理解环境反馈,从而做出更明智的决策。此外,由于 GAGPO 不需要训练额外的价值模型,因此可以降低计算成本,并提高训练效率。未来,GAGPO 可以应用于更复杂的任务中,例如自动驾驶、智能制造等。

📄 摘要(原文)

Reinforcement learning has become a powerful paradigm for post-training large language model agents, yet credit assignment in multi-turn environments remains a challenge. Agents often receive sparse, trajectory-level rewards only at the end of an episode, making it difficult to determine which intermediate actions contributed to success or failure. As a result, propagating delayed outcomes back to individual decision steps without relying on costly auxiliary value models remains an open problem. We propose Generalized Advantage Grouped Policy Optimization (GAGPO), a critic-free reinforcement learning method for precise, step-aligned temporal credit assignment. GAGPO constructs a non-parametric grouped value proxy from sampled rollouts and uses it to compute TD/GAE-style temporal advantages, recursively propagating outcome supervision backward through time. Combined with group-wise advantage normalization and an action-level importance ratio, GAGPO extracts stable, localized optimization signals directly from multi-turn trajectories. Experiments on ALFWorld and WebShop show that GAGPO outperforms strong reinforcement learning baselines. Further analyses demonstrate faster early-stage learning, improved interaction efficiency, and smoother optimization dynamics, suggesting that GAGPO offers a simple yet effective framework for multi-turn agentic reinforcement learning.