A Unified Pair-GRPO Family: From Implicit to Explicit Preference Constraints for Stable and General RL Alignment

📄 arXiv: 2605.06375v1 📥 PDF

作者: Hao Yu

分类: cs.LG, math.ST

发布日期: 2026-05-07


💡 一句话要点

提出Pair-GRPO家族,通过显隐偏好约束提升RLHF对齐的稳定性和泛化性

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 强化学习 人类偏好 大型语言模型对齐 策略优化 梯度下降

📋 核心要点

  1. 现有RLHF方法在对齐大型语言模型时面临策略更新不稳定、梯度方向不明确等挑战,限制了其性能和可靠性。
  2. 论文提出Pair-GRPO家族,通过Soft-Pair-GRPO和Hard-Pair-GRPO两种变体,分别从隐式和显式角度约束策略更新,提升训练稳定性。
  3. 实验表明,Pair-GRPO家族在LLM对齐和连续控制任务中均优于现有方法,在对齐质量、人类偏好胜率和泛化性方面均有提升。

📝 摘要(中文)

本文针对基于人类偏好的强化学习(RLHF)对齐大型语言模型(LLM)时,策略更新不稳定、梯度方向模糊、可解释性差以及梯度方差高等问题,提出了一个统一的基于偏好的强化学习优化理论框架,即Pair-GRPO家族,包含Soft-Pair-GRPO和Hard-Pair-GRPO两个紧密相关的变体。Soft-Pair-GRPO是对Group Relative Policy Optimization (GRPO) 的最小修改,用二元配对偏好奖励替换了组归一化的标量奖励,保留了GRPO的裁剪替代和KL正则化结构。论文证明了一个关键的梯度等价定理:在当前策略的一阶泰勒展开下,Soft-Pair-GRPO的梯度是标准GRPO梯度的正标量倍数,解释了其在丢弃连续奖励幅度的情况下仍具有经验稳定性的原因。在此基础上,论文提出了Hard-Pair-GRPO,这是一种引入显式局部概率约束和约束KL拟合优化的高级变体,以进一步抑制梯度噪声和全局策略漂移。论文为这两个变体提供了全面的理论保证,包括单调策略改进、确定性梯度方向、梯度方差减少和动态步长收敛。在标准LLM对齐基准(HH-RLHF、UltraFeedback)和MuJoCo连续控制任务HalfCheetah-v4上的大量实验表明,Pair-GRPO家族在对齐质量、人类偏好胜率、训练稳定性和推广到一般强化学习方面始终优于最先进的基线。消融研究验证了每个核心组件的关键贡献。

🔬 方法详解

问题定义:现有基于人类偏好的强化学习(RLHF)方法,在对齐大型语言模型时,存在策略更新不稳定、梯度方向模糊、可解释性差以及梯度方差高等问题。这些问题导致训练过程难以收敛,最终模型的性能也受到限制。现有方法难以在保证训练稳定性的同时,实现高质量的对齐效果。

核心思路:论文的核心思路是通过引入Pair-GRPO家族,利用配对偏好信息,从隐式和显式两个角度约束策略更新。Soft-Pair-GRPO通过保留GRPO的结构并用配对偏好奖励替换标量奖励,在不引入过多复杂性的前提下,提升训练稳定性。Hard-Pair-GRPO则通过显式地引入局部概率约束和约束KL拟合优化,进一步抑制梯度噪声和策略漂移。这样设计的目的是在保证训练稳定性的同时,提升对齐质量和泛化能力。

技术框架:Pair-GRPO家族包含两个主要变体:Soft-Pair-GRPO和Hard-Pair-GRPO。Soft-Pair-GRPO是基于GRPO的改进,主要通过替换奖励函数实现。Hard-Pair-GRPO则在Soft-Pair-GRPO的基础上,引入了显式的局部概率约束和约束KL拟合优化。整体流程包括:1) 收集人类偏好数据;2) 使用偏好数据训练奖励模型;3) 使用Pair-GRPO家族算法优化策略,其中Soft-Pair-GRPO直接使用配对偏好奖励,Hard-Pair-GRPO则在优化过程中施加额外的约束。

关键创新:论文最重要的技术创新点在于提出了Pair-GRPO家族,并从理论上证明了其优越性。Soft-Pair-GRPO的关键创新在于证明了其梯度与标准GRPO梯度的等价性,解释了其稳定性的来源。Hard-Pair-GRPO的关键创新在于引入了显式的局部概率约束和约束KL拟合优化,进一步提升了训练稳定性和对齐质量。与现有方法的本质区别在于,Pair-GRPO家族更加注重利用配对偏好信息,并从理论上保证了策略改进的单调性和梯度方向的确定性。

关键设计:Soft-Pair-GRPO的关键设计在于用二元配对偏好奖励替换了组归一化的标量奖励,并保留了GRPO的裁剪替代和KL正则化结构。Hard-Pair-GRPO的关键设计在于引入了显式的局部概率约束,通过约束KL散度来限制策略更新的幅度,并使用约束KL拟合优化来保证策略的稳定性。具体的损失函数包括配对偏好损失、KL散度损失以及约束项。网络结构方面,可以使用标准的Actor-Critic网络结构。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,Pair-GRPO家族在HH-RLHF和UltraFeedback等LLM对齐基准上,以及MuJoCo连续控制任务HalfCheetah-v4上,均优于现有方法。在HH-RLHF上,Pair-GRPO相对于基线方法在人类偏好胜率方面有显著提升。消融实验验证了每个核心组件对性能的贡献,证明了Pair-GRPO家族的有效性。

🎯 应用场景

该研究成果可广泛应用于大型语言模型的对齐,使其更好地符合人类价值观和偏好。此外,该方法也可推广到其他强化学习任务中,提升训练的稳定性和泛化能力,例如机器人控制、自动驾驶等领域。通过更稳定和高效的对齐方法,可以构建更安全、可靠和有益的人工智能系统。

📄 摘要(原文)

Large language model (LLM) alignment via reinforcement learning from human preferences (RLHF) suffers from unstable policy updates, ambiguous gradient directions, poor interpretability, and high gradient variance in mainstream pairwise preference learning paradigms. To systematically address these limitations, we establish a unified theoretical framework for preference-based RL optimization centered on the Pair-GRPO family, comprising two tightly coupled variants: Soft-Pair-GRPO and Hard-Pair-GRPO. Soft-Pair-GRPO is a minimal modification of Group Relative Policy Optimization (GRPO) that replaces group-normalized scalar rewards with binary pairwise preference rewards, retaining GRPO's clipped surrogate and KL-regularized structure. We prove a critical gradient equivalence theorem: under first-order Taylor expansion around the current policy, Soft-Pair-GRPO's gradient is a positive scalar multiple of standard GRPO's gradient, explaining its empirical stability despite discarding continuous reward magnitudes. Building on this foundation, we propose Hard-Pair-GRPO, an advanced variant introducing explicit local probability constraints and constrained KL-fitting optimization to further suppress gradient noise and global policy drift. We provide comprehensive theoretical guarantees for both variants--including monotonic policy improvement, deterministic gradient direction, gradient-variance reduction, and dynamic step-size convergence. Extensive experiments on standard LLM alignment benchmarks (HH-RLHF,UltraFeedback) and the MuJoCo continuous control task HalfCheetah-v4 demonstrate that our Pair-GRPO family consistently outperforms state-of-the-art baselines in alignment quality, human preference win rate, training stability, and generalization to general reinforcement learning. Ablation studies validate the critical contributions of each core component.