Beyond Importance Sampling: Rejection-Gated Policy Optimization

📄 arXiv: 2604.14895v1 📥 PDF

作者: Ziwu Sun, Zhen Gao, Jiyong Zhang, Jiaheng Li

分类: cs.LG, cs.AI

发布日期: 2026-04-16

备注: 27 pages, includes theoretical analysis and experiments


💡 一句话要点

提出RGPO,通过可学习的接受门控优化策略,提升强化学习的稳定性和性能。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 强化学习 策略优化 重要性采样 拒绝采样 梯度方差 RLHF 偏好对齐 在线学习

📋 核心要点

  1. 传统策略优化方法依赖重要性采样,当重要性比率方差过大时,会导致训练不稳定。
  2. RGPO引入可学习的接受门控,自适应地选择可信样本进行策略更新,避免使用所有样本。
  3. 实验表明,RGPO在奖励和KL散度上均优于PPO-RLHF,实现了帕累托最优的性能提升。

📝 摘要(中文)

本文提出了一种新的策略优化视角:优化器应该选择哪些样本足够可信以驱动策略更新,而不是通过重要性采样率对所有样本进行重新加权。基于此,我们引入了拒绝门控策略优化(RGPO),它用一个平滑的、可微的接受门控alpha_theta(s, a) = g(r_theta(s, a))(范围在[0, 1])取代了重要性采样比率r_theta = pi_theta / pi_old。与之前将拒绝采样作为训练前的数据级启发式方法不同,RGPO将拒绝提升为一种优化原则:门控直接参与梯度计算,并与策略一起隐式更新。RGPO提供了一个统一的框架:TRPO、PPO和REINFORCE的策略梯度都对应于有效梯度权重w(r) = g'(r) * r的特定选择。我们证明了RGPO保证了有限的、有界的梯度方差,即使重要性采样比率是重尾的(其中IS方差发散)。我们进一步表明,RGPO仅产生有界的、可控的偏差,并提供了类似于TRPO的近似单调策略改进保证。RGPO在计算成本上与PPO相当,不需要二阶优化,并且自然地扩展到RLHF风格的偏好对齐。在Anthropic HH-RLHF上对Qwen2.5-1.5B-Instruct进行在线偏好微调(n = 3个种子)时,RGPO使用双比率门控,将学习锚定到先前的策略和参考模型,实现了帕累托占优的结果:在线RL方法中最高的奖励(比PPO-RLHF高+14.8%)和与参考模型最低的KL散度(比PPO-RLHF低-16.0%,比GRPO低-53.1%)。

🔬 方法详解

问题定义:强化学习中的策略优化问题,尤其是在线策略学习中,由于策略更新导致的数据分布变化,传统的重要性采样方法容易产生高方差的梯度估计,进而导致训练不稳定。现有方法,如TRPO和PPO,通过约束策略更新幅度来缓解这个问题,但仍然依赖于重要性采样,无法从根本上解决高方差问题。

核心思路:RGPO的核心思想是引入一个可学习的接受门控,用于选择性地使用样本进行策略更新。这个门控根据重要性采样比率来判断样本的可信度,只选择可信度高的样本来更新策略,从而降低梯度估计的方差。这种方法将拒绝采样提升到优化层面,使得拒绝过程可以自适应地学习。

技术框架:RGPO的整体框架与PPO类似,都是基于Actor-Critic架构。主要区别在于,RGPO在计算策略梯度时,引入了一个接受门控函数alpha_theta(s, a),该函数根据重要性采样比率r_theta(s, a)计算出一个介于0和1之间的值,表示该样本被接受的概率。最终的策略梯度是原始梯度乘以这个接受概率。

关键创新:RGPO的关键创新在于将拒绝采样融入到策略优化过程中,通过可学习的接受门控来选择性地使用样本。与传统的重要性采样方法不同,RGPO不是简单地对所有样本进行加权,而是根据样本的可信度进行选择。这种方法可以有效地降低梯度估计的方差,提高训练的稳定性。此外,RGPO提供了一个统一的框架,可以解释TRPO、PPO和REINFORCE等算法。

关键设计:接受门控函数alpha_theta(s, a)通常是一个sigmoid函数,其输入是重要性采样比率r_theta(s, a)。RGPO还提出了一种双比率门控,用于RLHF场景,该门控同时考虑了当前策略与先前策略以及参考模型之间的重要性比率,从而更好地平衡奖励和KL散度。损失函数与PPO类似,但策略梯度会乘以接受门控的输出。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

RGPO在Qwen2.5-1.5B-Instruct模型上,使用Anthropic HH-RLHF数据集进行在线偏好微调,相较于PPO-RLHF,奖励提升了14.8%,与参考模型的KL散度降低了16.0%,相较于GRPO,KL散度降低了53.1%,实现了帕累托最优的结果,表明RGPO在提升奖励的同时,能更好地保持模型的生成质量。

🎯 应用场景

RGPO具有广泛的应用前景,尤其适用于需要在线学习和高稳定性的强化学习任务,例如机器人控制、自动驾驶、对话系统和推荐系统。在RLHF(Reinforcement Learning from Human Feedback)中,RGPO可以用于对大型语言模型进行微调,使其更好地对齐人类偏好,同时保持较低的KL散度,避免模型过度偏离原始分布。

📄 摘要(原文)

We propose a new perspective on policy optimization: rather than reweighting all samples by their importance ratios, an optimizer should select which samples are trustworthy enough to drive a policy update. Building on this view, we introduce Rejection-Gated Policy Optimization (RGPO), which replaces the importance sampling ratio r_theta = pi_theta / pi_old with a smooth, differentiable acceptance gate alpha_theta(s, a) = g(r_theta(s, a)) in the range [0, 1]. Unlike prior work that applies rejection sampling as a data-level heuristic before training, RGPO elevates rejection to an optimization principle: the gate participates directly in gradient computation and is implicitly updated alongside the policy. RGPO provides a unified framework: the policy gradients of TRPO, PPO, and REINFORCE all correspond to specific choices of the effective gradient weight w(r) = g'(r) * r. We prove that RGPO guarantees finite, bounded gradient variance even when importance sampling ratios are heavy-tailed (where IS variance diverges). We further show that RGPO incurs only a bounded, controllable bias and provides an approximate monotonic policy improvement guarantee analogous to TRPO. RGPO matches PPO in computational cost, requires no second-order optimization, and extends naturally to RLHF-style preference alignment. In online preference fine-tuning of Qwen2.5-1.5B-Instruct on Anthropic HH-RLHF (n = 3 seeds), RGPO uses a dual-ratio gate that anchors learning to both the previous policy and the reference model, achieving a Pareto-dominant outcome: the highest reward among online RL methods (+14.8% vs. PPO-RLHF) and the lowest KL divergence to the reference model (-16.0% vs. PPO-RLHF, -53.1% vs. GRPO).