OP-GRPO: Efficient Off-Policy GRPO for Flow-Matching Models

作者: Liyu Zhang, Kehan Li, Tingrui Han, Tao Zhao, Yuxuan Sheng, Shibo He, Chao Li

分类: cs.CV

发布日期: 2026-04-07

💡 一句话要点

提出OP-GRPO，通过离线策略优化提升Flow-Matching模型生成质量和训练效率。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: Flow-Matching模型 离线策略学习 GRPO 重要性采样 图像生成

📋 核心要点

GRPO在提升Flow-Matching模型生成质量方面表现出色，但其在线训练方式导致样本效率低下，限制了应用。
OP-GRPO通过离线策略学习，复用高质量轨迹，并引入重要性采样校正，缓解分布偏移，提升训练效率。
实验证明，OP-GRPO在图像和视频生成任务上，仅需Flow-GRPO的34.2%训练步骤，即可达到相当甚至更优的性能。

📝 摘要（中文）

本文提出OP-GRPO，一种专为Flow-Matching模型设计的离线策略GRPO框架，旨在解决GRPO固有的低样本效率问题。该框架主动选择高质量轨迹，并自适应地将其纳入回放缓冲区，以便在后续训练迭代中重复使用。为了缓解离线样本引入的分布偏移，本文提出了一种序列级重要性采样校正方法，该方法保留了GRPO的裁剪机制的完整性，同时确保了策略更新的稳定性。此外，理论和实验表明，后期去噪步骤会产生病态的离线策略比率，因此通过截断后期步骤的轨迹来缓解此问题。在图像和视频生成基准测试中，OP-GRPO仅使用平均34.2%的训练步骤，就实现了与Flow-GRPO相当或更优越的性能，从而在保持生成质量的同时，显著提高了训练效率。

🔬 方法详解

问题定义：Flow-Matching模型通过GRPO进行后训练可以显著提升生成质量，但GRPO采用在线策略训练，样本效率较低，需要大量的训练步骤才能达到理想效果，这限制了其在计算资源有限场景下的应用。

核心思路：OP-GRPO的核心思路是将GRPO从在线策略学习转变为离线策略学习。通过构建一个回放缓冲区，存储高质量的轨迹样本，并在后续训练中重复利用这些样本，从而提高样本效率，减少训练所需的计算资源。

技术框架：OP-GRPO的整体框架包括以下几个主要模块：1) 轨迹选择模块：主动选择高质量的轨迹样本；2) 回放缓冲区：存储选择的轨迹样本，供后续训练使用；3) 序列级重要性采样校正模块：缓解离线数据带来的分布偏移问题；4) 轨迹截断模块：针对后期去噪步骤的病态离线策略比率进行处理。训练流程为：首先，使用当前策略生成轨迹，然后通过轨迹选择模块筛选高质量轨迹并存入回放缓冲区。接着，从回放缓冲区中采样轨迹，并使用序列级重要性采样校正方法计算重要性权重。最后，使用校正后的重要性权重更新策略。

关键创新：OP-GRPO的关键创新在于：1) 首次将离线策略学习引入Flow-Matching模型的GRPO训练中，显著提升了样本效率；2) 提出了序列级重要性采样校正方法，有效缓解了离线数据带来的分布偏移问题，保证了策略更新的稳定性；3) 针对Flow-Matching模型的特性，提出了轨迹截断策略，解决了后期去噪步骤的病态离线策略比率问题。

关键设计：1) 轨迹选择：使用某种指标（例如奖励值）来评估轨迹的质量，并选择高于阈值的轨迹存入回放缓冲区。2) 序列级重要性采样：计算每个轨迹的重要性权重，用于校正离线数据带来的偏差。具体计算公式未知，但需要保证GRPO的裁剪机制的完整性。3) 轨迹截断：根据实验结果，确定一个合适的截断点，将轨迹在后期去噪步骤处截断，避免病态比率的影响。4) 回放缓冲区大小：需要根据实际情况进行调整，以平衡存储成本和样本多样性。

🖼️ 关键图片

📊 实验亮点

OP-GRPO在图像和视频生成基准测试中，仅使用Flow-GRPO平均34.2%的训练步骤，就实现了与其相当甚至更优越的性能。这意味着在保持生成质量的前提下，训练效率得到了显著提升，大幅降低了计算成本。

🎯 应用场景

OP-GRPO可应用于各种图像和视频生成任务，尤其适用于计算资源受限的场景。通过提高训练效率，可以加速Flow-Matching模型在如移动设备、嵌入式系统等资源有限平台上的部署。此外，该方法也有潜力推广到其他生成模型的训练中，提升其训练效率和生成质量。

📄 摘要（原文）

Post training via GRPO has demonstrated remarkable effectiveness in improving the generation quality of flow-matching models. However, GRPO suffers from inherently low sample efficiency due to its on-policy training paradigm. To address this limitation, we present OP-GRPO, the first Off-Policy GRPO framework tailored for flow-matching models. First, we actively select high-quality trajectories and adaptively incorporate them into a replay buffer for reuse in subsequent training iterations. Second, to mitigate the distribution shift introduced by off-policy samples, we propose a sequence-level importance sampling correction that preserves the integrity of GRPO's clipping mechanism while ensuring stable policy updates. Third, we theoretically and empirically show that late denoising steps yield ill-conditioned off-policy ratios, and mitigate this by truncating trajectories at late steps. Across image and video generation benchmarks, OP-GRPO achieves comparable or superior performance to Flow-GRPO with only 34.2% of the training steps on average, yielding substantial gains in training efficiency while maintaining generation quality.

OP-GRPO: Efficient Off-Policy GRPO for Flow-Matching Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理