OP-GRPO: Efficient Off-Policy GRPO for Flow-Matching Models

📄 arXiv: 2604.04142 📥 PDF

作者: Liyu Zhang, Kehan Li, Tingrui Han, Tao Zhao, Yuxuan Sheng, Shibo He, Chao Li

分类: cs.CV

发布日期: 2026-04-07


💡 一句话要点

提出OP-GRPO,通过离线策略优化提升Flow-Matching模型生成质量和训练效率。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: Flow-Matching模型 离线策略学习 GRPO 重要性采样 图像生成

📋 核心要点

  1. GRPO在提升Flow-Matching模型生成质量方面表现出色,但其在线训练方式导致样本效率低下,限制了应用。
  2. OP-GRPO通过离线策略学习,复用高质量轨迹,并引入重要性采样校正,缓解分布偏移,提升训练效率。
  3. 实验证明,OP-GRPO在图像和视频生成任务上,仅需Flow-GRPO的34.2%训练步骤,即可达到相当甚至更优的性能。

📝 摘要(中文)

本文提出OP-GRPO,一种专为Flow-Matching模型设计的离线策略GRPO框架,旨在解决GRPO固有的低样本效率问题。该框架主动选择高质量轨迹,并自适应地将其纳入回放缓冲区,以便在后续训练迭代中重复使用。为了缓解离线样本引入的分布偏移,本文提出了一种序列级重要性采样校正方法,该方法保留了GRPO的裁剪机制的完整性,同时确保了策略更新的稳定性。此外,理论和实验表明,后期去噪步骤会产生病态的离线策略比率,因此通过截断后期步骤的轨迹来缓解此问题。在图像和视频生成基准测试中,OP-GRPO仅使用平均34.2%的训练步骤,就实现了与Flow-GRPO相当或更优越的性能,从而在保持生成质量的同时,显著提高了训练效率。

🔬 方法详解

问题定义:Flow-Matching模型通过GRPO进行后训练可以显著提升生成质量,但GRPO采用在线策略训练,样本效率较低,需要大量的训练步骤才能达到理想效果,这限制了其在计算资源有限场景下的应用。

核心思路:OP-GRPO的核心思路是将GRPO从在线策略学习转变为离线策略学习。通过构建一个回放缓冲区,存储高质量的轨迹样本,并在后续训练中重复利用这些样本,从而提高样本效率,减少训练所需的计算资源。

技术框架:OP-GRPO的整体框架包括以下几个主要模块:1) 轨迹选择模块:主动选择高质量的轨迹样本;2) 回放缓冲区:存储选择的轨迹样本,供后续训练使用;3) 序列级重要性采样校正模块:缓解离线数据带来的分布偏移问题;4) 轨迹截断模块:针对后期去噪步骤的病态离线策略比率进行处理。训练流程为:首先,使用当前策略生成轨迹,然后通过轨迹选择模块筛选高质量轨迹并存入回放缓冲区。接着,从回放缓冲区中采样轨迹,并使用序列级重要性采样校正方法计算重要性权重。最后,使用校正后的重要性权重更新策略。

关键创新:OP-GRPO的关键创新在于:1) 首次将离线策略学习引入Flow-Matching模型的GRPO训练中,显著提升了样本效率;2) 提出了序列级重要性采样校正方法,有效缓解了离线数据带来的分布偏移问题,保证了策略更新的稳定性;3) 针对Flow-Matching模型的特性,提出了轨迹截断策略,解决了后期去噪步骤的病态离线策略比率问题。

关键设计:1) 轨迹选择:使用某种指标(例如奖励值)来评估轨迹的质量,并选择高于阈值的轨迹存入回放缓冲区。2) 序列级重要性采样:计算每个轨迹的重要性权重,用于校正离线数据带来的偏差。具体计算公式未知,但需要保证GRPO的裁剪机制的完整性。3) 轨迹截断:根据实验结果,确定一个合适的截断点,将轨迹在后期去噪步骤处截断,避免病态比率的影响。4) 回放缓冲区大小:需要根据实际情况进行调整,以平衡存储成本和样本多样性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

OP-GRPO在图像和视频生成基准测试中,仅使用Flow-GRPO平均34.2%的训练步骤,就实现了与其相当甚至更优越的性能。这意味着在保持生成质量的前提下,训练效率得到了显著提升,大幅降低了计算成本。

🎯 应用场景

OP-GRPO可应用于各种图像和视频生成任务,尤其适用于计算资源受限的场景。通过提高训练效率,可以加速Flow-Matching模型在如移动设备、嵌入式系统等资源有限平台上的部署。此外,该方法也有潜力推广到其他生成模型的训练中,提升其训练效率和生成质量。

📄 摘要(原文)

Post training via GRPO has demonstrated remarkable effectiveness in improving the generation quality of flow-matching models. However, GRPO suffers from inherently low sample efficiency due to its on-policy training paradigm. To address this limitation, we present OP-GRPO, the first Off-Policy GRPO framework tailored for flow-matching models. First, we actively select high-quality trajectories and adaptively incorporate them into a replay buffer for reuse in subsequent training iterations. Second, to mitigate the distribution shift introduced by off-policy samples, we propose a sequence-level importance sampling correction that preserves the integrity of GRPO's clipping mechanism while ensuring stable policy updates. Third, we theoretically and empirically show that late denoising steps yield ill-conditioned off-policy ratios, and mitigate this by truncating trajectories at late steps. Across image and video generation benchmarks, OP-GRPO achieves comparable or superior performance to Flow-GRPO with only 34.2% of the training steps on average, yielding substantial gains in training efficiency while maintaining generation quality.