GVPO: Group Variance Policy Optimization for Large Language Model Post-Training

📄 arXiv: 2504.19599v3 📥 PDF

作者: Kaichen Zhang, Yuzhong Hong, Junwei Bao, Hongfei Jiang, Yang Song, Dingqian Hong, Hui Xiong

分类: cs.AI, cs.LG

发布日期: 2025-04-28 (更新: 2025-10-27)

备注: Accepted by NeurIPS 2025


💡 一句话要点

GVPO:面向大语言模型后训练的组方差策略优化,提升训练稳定性和灵活性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 后训练 策略优化 KL散度 奖励最大化 梯度权重 训练稳定性

📋 核心要点

  1. 现有后训练方法,如GRPO,虽然性能优越,但训练不稳定,限制了实际应用。
  2. GVPO将KL约束奖励最大化的解析解融入梯度权重,确保与最优策略对齐,提升稳定性。
  3. GVPO保证唯一最优解,并支持灵活的采样分布,避免了on-policy和重要性采样的限制。

📝 摘要(中文)

后训练在优化和调整大型语言模型以满足特定任务和人类偏好方面起着至关重要的作用。虽然最近的后训练技术,如组相对策略优化(GRPO),利用增加的采样和相对奖励评分来实现卓越的性能,但这些方法常常受到训练不稳定性的影响,限制了它们的实际应用。为此,我们提出了组方差策略优化(GVPO)。GVPO将KL约束奖励最大化的解析解直接融入其梯度权重中,确保与最优策略对齐。该方法提供了直观的物理意义:其梯度反映了隐式奖励的中心距离与实际奖励的中心距离之间的均方误差。GVPO提供了两个关键优势:(1)它保证了唯一的最佳解,即KL约束奖励最大化目标;(2)它支持灵活的采样分布,避免了on-policy和重要性采样的限制。通过将理论保证与实际适应性相结合,GVPO为可靠且通用的大语言模型后训练建立了一个新的范例。

🔬 方法详解

问题定义:论文旨在解决大语言模型后训练中,现有方法(如GRPO)训练不稳定,难以实际应用的问题。现有方法在利用相对奖励评分和增加采样来提升性能的同时,面临着梯度爆炸或消失等训练难题,导致模型收敛困难,泛化能力受限。

核心思路:GVPO的核心思路是将KL散度约束下的奖励最大化问题的解析解直接融入到策略优化的梯度更新中。通过这种方式,GVPO能够确保梯度更新的方向始终指向最优策略,从而避免了传统方法中由于采样偏差或不精确的梯度估计导致的训练不稳定问题。

技术框架:GVPO的整体框架包括以下几个主要步骤:1. 从模型中采样生成多个输出序列。2. 使用奖励模型对这些序列进行评分。3. 计算序列之间的相对奖励。4. 利用GVPO算法计算梯度权重,该权重基于KL约束奖励最大化的解析解。5. 使用计算得到的梯度权重更新模型参数。

关键创新:GVPO的关键创新在于其梯度权重的计算方式。传统方法通常使用重要性采样或近似方法来估计梯度,而GVPO直接利用KL约束奖励最大化的解析解,避免了这些近似带来的误差。此外,GVPO还支持灵活的采样分布,摆脱了对on-policy采样的依赖,从而可以更有效地探索策略空间。

关键设计:GVPO的关键设计包括:1. 使用KL散度作为正则化项,防止策略更新过于激进。2. 梯度权重的计算基于隐式奖励的中心距离的均方误差,这提供了一个直观的物理意义。3. 算法的实现需要仔细选择KL散度的系数,以平衡奖励最大化和策略稳定性。

🖼️ 关键图片

fig_0

📊 实验亮点

论文提出了GVPO方法,该方法通过将KL约束奖励最大化的解析解融入梯度权重中,显著提升了LLM后训练的稳定性。GVPO保证了唯一的最佳解,并支持灵活的采样分布,避免了on-policy和重要性采样的限制。实验结果表明,GVPO在多个任务上优于现有方法,展现了其在LLM后训练方面的潜力。

🎯 应用场景

GVPO可广泛应用于各种需要对大型语言模型进行后训练的场景,例如指令遵循、对话生成、文本摘要等。通过提高训练的稳定性和灵活性,GVPO可以帮助开发者更有效地调整模型,使其更好地适应特定任务和用户偏好,从而提升用户体验和应用价值。未来,GVPO有望成为大语言模型后训练的标准方法之一。

📄 摘要(原文)

Post-training plays a crucial role in refining and aligning large language models to meet specific tasks and human preferences. While recent advancements in post-training techniques, such as Group Relative Policy Optimization (GRPO), leverage increased sampling with relative reward scoring to achieve superior performance, these methods often suffer from training instability that limits their practical adoption. As a next step, we present Group Variance Policy Optimization (GVPO). GVPO incorporates the analytical solution to KL-constrained reward maximization directly into its gradient weights, ensuring alignment with the optimal policy. The method provides intuitive physical interpretations: its gradient mirrors the mean squared error between the central distance of implicit rewards and that of actual rewards. GVPO offers two key advantages: (1) it guarantees a unique optimal solution, exactly the KL-constrained reward maximization objective, (2) it supports flexible sampling distributions that avoids on-policy and importance sampling limitations. By unifying theoretical guarantees with practical adaptability, GVPO establishes a new paradigm for reliable and versatile LLM post-training.