Group Sequence Policy Optimization
作者: Chujie Zheng, Shixuan Liu, Mingze Li, Xiong-Hui Chen, Bowen Yu, Chang Gao, Kai Dang, Yuqiong Liu, Rui Men, An Yang, Jingren Zhou, Junyang Lin
分类: cs.LG, cs.AI, cs.CL
发布日期: 2025-07-24 (更新: 2025-07-28)
💡 一句话要点
提出GSPO算法,通过序列级策略优化提升大型语言模型强化学习训练的稳定性与效率。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 强化学习 大型语言模型 策略优化 序列建模 重要性采样
📋 核心要点
- 现有强化学习算法在训练大型语言模型时,通常采用token级别的重要性比率,这可能导致训练不稳定和效率低下。
- GSPO算法的核心在于基于序列似然性定义重要性比率,并在序列级别进行裁剪、奖励和优化,从而稳定训练过程。
- 实验结果表明,GSPO在训练效率和性能上优于GRPO算法,尤其在混合专家模型的强化学习训练中表现出更好的稳定性。
📝 摘要(中文)
本文介绍了一种稳定、高效且高性能的强化学习算法,即组序列策略优化(GSPO),用于训练大型语言模型。与以往采用token级别重要性比率的算法不同,GSPO基于序列似然性定义重要性比率,并执行序列级别的裁剪、奖励和优化。实验表明,GSPO相比GRPO算法实现了卓越的训练效率和性能,尤其稳定了混合专家(MoE)强化学习训练,并具有简化强化学习基础设施设计的潜力。GSPO的这些优点促成了Qwen3模型显著的改进。
🔬 方法详解
问题定义:现有基于强化学习的大型语言模型训练方法,通常采用token级别的重要性采样和策略更新。这种方法对每个token进行独立评估,忽略了序列的整体语义信息,容易导致策略梯度估计的方差过大,训练过程不稳定,并且计算效率较低。尤其是在训练混合专家模型时,token级别的优化可能导致专家之间的不平衡,进一步加剧训练难度。
核心思路:GSPO的核心思路是将重要性采样和策略更新从token级别提升到序列级别。通过计算整个序列的似然比来评估策略的优劣,并基于序列级别的奖励进行策略优化。这种方法能够更好地捕捉序列的整体信息,降低策略梯度估计的方差,从而提高训练的稳定性和效率。
技术框架:GSPO的整体框架包括以下几个主要步骤:1)使用当前策略生成多个序列样本;2)计算每个序列的似然比,即新策略生成该序列的概率与旧策略生成该序列的概率之比;3)基于序列级别的似然比,对奖励进行裁剪和缩放,以控制策略更新的幅度;4)使用裁剪后的奖励来更新策略。GSPO可以与现有的策略梯度算法相结合,例如PPO。
关键创新:GSPO最重要的创新在于将重要性采样和策略更新的粒度从token级别提升到序列级别。这种序列级别的优化能够更好地捕捉序列的整体信息,降低策略梯度估计的方差,从而提高训练的稳定性和效率。此外,GSPO还通过序列级别的裁剪和奖励机制,有效地控制了策略更新的幅度,避免了策略崩溃。
关键设计:GSPO的关键设计包括:1)序列似然比的计算方式,通常采用对数概率之和;2)序列级别奖励的裁剪阈值,需要根据具体任务进行调整;3)策略更新的学习率,需要仔细调整以保证训练的稳定性和收敛速度。此外,GSPO可以与不同的策略梯度算法相结合,例如PPO,TRPO等。
🖼️ 关键图片
📊 实验亮点
实验结果表明,GSPO算法在训练效率和性能上均优于GRPO算法。尤其是在混合专家模型的强化学习训练中,GSPO表现出更好的稳定性,能够有效地避免策略崩溃。具体性能数据未知,但论文强调GSPO促成了Qwen3模型的显著改进,表明其在实际应用中具有重要价值。
🎯 应用场景
GSPO算法可广泛应用于各种需要使用强化学习训练大型语言模型的场景,例如对话系统、文本生成、代码生成等。通过提高训练的稳定性和效率,GSPO可以帮助开发者更快地训练出更高质量的语言模型,从而提升相关应用的性能和用户体验。尤其在训练混合专家模型时,GSPO的优势更加明显,可以有效解决专家之间的不平衡问题。
📄 摘要(原文)
This paper introduces Group Sequence Policy Optimization (GSPO), our stable, efficient, and performant reinforcement learning algorithm for training large language models. Unlike previous algorithms that adopt token-level importance ratios, GSPO defines the importance ratio based on sequence likelihood and performs sequence-level clipping, rewarding, and optimization. We demonstrate that GSPO achieves superior training efficiency and performance compared to the GRPO algorithm, notably stabilizes Mixture-of-Experts (MoE) RL training, and has the potential for simplifying the design of RL infrastructure. These merits of GSPO have contributed to the remarkable improvements in the latest Qwen3 models.