How Much Online RL is Enough? Informative Rollouts for Offline Preference Optimization in RLVR

📄 arXiv: 2605.21266v1 📥 PDF

作者: Richa Verma, Balaraman Ravindran

分类: cs.LG, cs.AI

发布日期: 2026-05-20


💡 一句话要点

G2D:通过适度在线RL预热提升离线偏好优化,降低计算成本

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 强化学习 偏好优化 离线学习 在线学习 语言模型 计算效率 数据信息量

📋 核心要点

  1. GRPO等在线RL方法在RLVR中表现出色,但计算成本高昂,限制了其扩展性。
  2. G2D通过短时GRPO预热生成高质量偏好数据,再用DPO离线训练,降低计算成本。
  3. 实验表明,适度预热的G2D在Qwen2.5-7B和Llama-3.1-8B上优于GRPO,且计算成本更低。

📝 摘要(中文)

从可验证奖励中进行强化学习(RLVR)已成为语言模型推理的强大范例,GRPO是其主要例子。然而,GRPO需要持续的在线rollout生成,这使得它计算成本高昂且难以扩展。直接偏好优化(DPO)提供了一种稳定且高效的离线替代方案,但当在来自冷启动的监督微调(SFT)策略的rollout上训练时,通常预计其性能不如GRPO等在线RL方法。我们引入了G2D(GRPO到DPO),这是一个三阶段流程,执行短时间的GRPO预热,构建静态偏好数据集,并使用DPO离线微调模型。在Qwen2.5-7B和Llama-3.1-8B上,针对GRPO中不同数量的在线步骤(K)进行实验,我们发现,在我们的设置中,具有适度预热的离线DPO在显著降低计算成本的情况下,匹配或优于GRPO。在Qwen2.5-7B上,K=150的G2D在MATH-500上达到62.4%,超过GRPO(51.6%) 10.8%,计算成本降低约4倍。在Llama-3.1-8B上,K=500的G2D达到49.4%,超过了我们实验设置中的GRPO。我们表明,性能不受偏好对数量的控制,偏好对数量相对于K没有太大变化,而是受其信息量的控制。适度的预热会产生具有校准不确定性的rollout,从而产生更强的对比信号,而过度的预热会导致过度自信的策略和信息量较少的数据。我们的结果将RLVR中的离线-在线差距重新定义为主要的数据信息量问题,并确定了具有适当难度校准的微调数据集的短时间在线RL预热,作为在线RL的一种计算高效的替代方案。

🔬 方法详解

问题定义:论文旨在解决RLVR中在线强化学习方法(如GRPO)计算成本过高的问题。现有方法需要持续在线生成rollout,导致难以扩展。离线方法(如DPO)虽然计算效率高,但在使用冷启动的SFT策略生成的rollout上训练时,性能通常不如在线方法。

核心思路:论文的核心思路是通过一个短时间的在线RL预热阶段,生成高质量的偏好数据,然后使用DPO进行离线训练。这种方法旨在利用在线RL的优势,即探索更优的策略空间,同时避免其高昂的计算成本。关键在于找到合适的预热时长,以生成信息量最大的偏好数据。

技术框架:G2D包含三个主要阶段: 1. GRPO预热:使用GRPO进行短时间的在线强化学习,生成一定数量的rollout。 2. 偏好数据集构建:基于GRPO生成的rollout,构建静态的偏好数据集,包含胜者和败者样本。 3. DPO离线微调:使用构建的偏好数据集,对模型进行离线DPO微调。

关键创新:论文的关键创新在于发现适度的在线RL预热能够生成信息量更大的偏好数据,从而使得离线DPO能够达到甚至超过在线GRPO的性能。论文强调了数据信息量的重要性,而非仅仅是偏好对的数量。通过校准预热阶段的难度,可以避免过度自信的策略和信息量不足的数据。

关键设计: * 预热时长K的选择:通过实验确定最佳的预热时长K,以平衡探索和利用。 * 偏好数据集的构建:使用GRPO生成的rollout,根据奖励值选择胜者和败者样本,构建偏好数据集。 * DPO损失函数:使用标准的DPO损失函数进行离线微调,优化模型以符合偏好数据。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在Qwen2.5-7B上,G2D在K=150时在MATH-500数据集上达到了62.4%的准确率,超过GRPO(51.6%)10.8%,并且计算成本降低了约4倍。在Llama-3.1-8B上,G2D在K=500时达到了49.4%的准确率,超过了实验设置中的GRPO。实验结果表明,适度的在线RL预热能够显著提升离线DPO的性能,并降低计算成本。

🎯 应用场景

该研究成果可应用于各种需要从人类反馈中学习的语言模型任务,例如对话生成、文本摘要、代码生成等。通过降低计算成本,使得RLVR方法能够更容易地应用于大规模语言模型,并加速相关领域的研究和应用。

📄 摘要(原文)

Reinforcement Learning from Verifiable Rewards (RLVR) has emerged as a powerful paradigm for reasoning in language models, with GRPO as its primary example. However, GRPO requires continuous online rollout generation, making it computationally expensive and difficult to scale. While Direct Preference Optimization (DPO) offers a stable and efficient offline alternative, it is typically expected to underperform w.r.t. online RL methods such as GRPO when trained on rollouts from a cold supervised fine-tuned (SFT) policy. We introduce G2D (GRPO to DPO)}, a three-stage pipeline that performs a short GRPO warm-up, constructs a static preference dataset, and fine-tunes a model offline with DPO. Across a set of values of the number of online steps (K) in GRPO on Qwen2.5-7B and Llama-3.1-8B, we find that offline DPO with moderate warm-up matches or outperforms GRPO at substantially lower compute cost in our setting. On Qwen2.5-7B, G2D at K=150 achieves 62.4% on MATH-500, outperforming GRPO (51.6%) by 10.8% at ~4x lower compute. On Llama-3.1-8B, G2D at K=500 achieves 49.4%, surpassing GRPO in our experimental setting. We show that performance is not governed by the number of preference pairs, which does not vary much w.r.t. K, but by their informativeness. Moderate warm-up produces rollouts with calibrated uncertainty, yielding stronger contrastive signal, while excessive warm-up leads to overconfident policies and less informative data. Our results recast the offline-online gap in RLVR as primarily a data informativeness problem, and identify short online RL warm-up with appropriate difficulty calibration of the fine-tuning dataset as a compute-efficient alternative to online RL.