Revisiting Group Relative Policy Optimization: Insights into On-Policy and Off-Policy Training

📄 arXiv: 2505.22257v2 📥 PDF

作者: Youssef Mroueh, Nicolas Dupuis, Brian Belgodere, Apoorva Nitsure, Mattia Rigotti, Kristjan Greenewald, Jiri Navratil, Jerret Ross, Jesus Rios

分类: cs.LG, stat.ML

发布日期: 2025-05-28 (更新: 2025-05-30)


💡 一句话要点

改进群体相对策略优化:探索其在On-Policy和Off-Policy训练中的应用

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 强化学习 Off-Policy学习 群体相对策略优化 近端策略优化 策略梯度 优势函数估计 裁剪机制

📋 核心要点

  1. 现有强化学习方法在Off-Policy训练中存在稳定性、效率和内存使用方面的挑战。
  2. 本文将群体相对策略优化(GRPO)扩展到Off-Policy场景,并引入裁剪的替代目标以提高训练稳定性。
  3. 实验结果表明,Off-Policy GRPO在性能上优于或至少与On-Policy GRPO持平,验证了其有效性。

📝 摘要(中文)

本文重新审视了群体相对策略优化(GRPO)在On-Policy和Off-Policy优化机制中的应用。我们的动机源于最近关于Off-Policy近端策略优化(PPO)的研究,该研究提高了训练稳定性、采样效率和内存使用率。此外,最近对GRPO的分析表明,使用Off-Policy样本估计优势函数可能是有益的。基于这些观察,我们将GRPO调整到Off-Policy设置。我们证明了On-Policy和Off-Policy GRPO目标都能提高奖励。这一结果促使我们在Off-Policy版本的GRPO中使用裁剪的替代目标。然后,我们使用GRPO的两种变体比较了具有可验证奖励的强化学习在训练后的经验性能。我们的结果表明,Off-Policy GRPO的性能明显优于或与On-Policy GRPO相当。

🔬 方法详解

问题定义:论文旨在解决强化学习中,尤其是在Off-Policy训练场景下,如何更有效地利用历史数据,提升策略学习的稳定性和性能的问题。现有的On-Policy方法受限于数据利用率,而直接应用Off-Policy方法可能导致训练不稳定。

核心思路:论文的核心思路是将群体相对策略优化(GRPO)扩展到Off-Policy设置,并借鉴近端策略优化(PPO)的思想,引入裁剪的替代目标函数。通过这种方式,既能利用Off-Policy数据提高采样效率,又能通过裁剪限制策略更新幅度,保证训练的稳定性。

技术框架:整体框架包括以下几个主要步骤:1) 使用Off-Policy数据估计优势函数;2) 构建GRPO目标函数,该目标函数基于群体内的相对策略表现;3) 引入裁剪机制,限制新策略与旧策略的差异,防止策略更新过大;4) 使用优化算法(如Adam)更新策略网络参数。

关键创新:最重要的技术创新点在于将GRPO与Off-Policy学习相结合,并引入了裁剪机制。这使得GRPO能够利用Off-Policy数据进行训练,同时保持训练的稳定性。此外,论文还分析了Off-Policy样本估计优势函数对GRPO性能的影响。

关键设计:关键设计包括:1) 优势函数的估计方法,可以使用时序差分学习或其他Off-Policy方法;2) 裁剪参数的选择,需要平衡策略更新的幅度和训练的稳定性;3) GRPO目标函数的具体形式,需要考虑群体内策略的相对表现;4) 策略网络的结构,可以根据具体任务选择合适的网络结构。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Off-Policy GRPO在具有可验证奖励的强化学习任务中,性能显著优于或至少与On-Policy GRPO相当。这意味着在相同训练资源下,Off-Policy GRPO能够学习到更优的策略,尤其是在数据获取成本较高或需要利用历史数据的场景下。

🎯 应用场景

该研究成果可应用于各种需要高效数据利用和稳定训练的强化学习任务,例如机器人控制、游戏AI、自动驾驶、推荐系统等。通过利用历史数据和裁剪机制,可以显著提高训练效率和策略性能,降低训练成本。

📄 摘要(原文)

We revisit Group Relative Policy Optimization (GRPO) in both on-policy and off-policy optimization regimes. Our motivation comes from recent work on off-policy Proximal Policy Optimization (PPO), which improves training stability, sampling efficiency, and memory usage. In addition, a recent analysis of GRPO suggests that estimating the advantage function with off-policy samples could be beneficial. Building on these observations, we adapt GRPO to the off-policy setting. We show that both on-policy and off-policy GRPO objectives yield an improvement in the reward. This result motivates the use of clipped surrogate objectives in the off-policy version of GRPO. We then compare the empirical performance of reinforcement learning with verifiable rewards in post-training using both GRPO variants. Our results show that off-policy GRPO either significantly outperforms or performs on par with its on-policy counterpart.