Coefficients-Preserving Sampling for Reinforcement Learning with Flow Matching
作者: Feng Wang, Zihao Yu
分类: cs.CV
发布日期: 2025-09-07 (更新: 2025-12-08)
备注: work in progress
🔗 代码/项目: GITHUB
💡 一句话要点
提出系数保持采样(CPS)方法,解决Flow Matching模型RL优化中的噪声伪影问题。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: Flow Matching 强化学习 图像生成 噪声伪影 系数保持采样
📋 核心要点
- 基于SDE的Flow Matching模型在图像生成中引入随机性,但会产生噪声伪影,阻碍奖励学习。
- 提出系数保持采样(CPS)方法,借鉴DDIM思想,消除噪声伪影,提高奖励建模的准确性。
- CPS方法能够使Flow-GRPO和Dance-GRPO等基于强化学习的优化器更快、更稳定地收敛。
📝 摘要(中文)
强化学习(RL)已成为改进扩散模型和Flow Matching模型中图像和视频生成的一种强大技术,尤其是在提高输出质量和与提示对齐方面。在Flow Matching上应用在线RL方法的一个关键步骤是将随机性引入确定性框架,通常通过随机微分方程(SDE)实现。我们的研究揭示了这种方法的一个显著缺点:基于SDE的采样在生成的图像中引入了明显的噪声伪影,我们发现这不利于奖励学习过程。严格的理论分析将这种噪声的根源追溯到推理过程中注入的过量随机性。为了解决这个问题,我们从去噪扩散隐式模型(DDIM)中获得灵感,重新制定了采样过程。我们提出的方法,系数保持采样(CPS),消除了这些噪声伪影。这导致更准确的奖励建模,最终为基于强化学习的优化器(如Flow-GRPO和Dance-GRPO)实现更快和更稳定的收敛。
🔬 方法详解
问题定义:论文旨在解决Flow Matching模型在利用强化学习进行优化时,由于引入随机微分方程(SDE)进行采样而产生的噪声伪影问题。这些噪声伪影会干扰奖励学习过程,导致RL优化器收敛速度慢,甚至不稳定。现有方法的痛点在于,为了将随机性引入确定性框架,过度依赖SDE,导致生成图像质量下降。
核心思路:论文的核心思路是借鉴去噪扩散隐式模型(DDIM)的思想,重新设计Flow Matching的采样过程,从而在引入必要随机性的同时,避免过度的噪声注入。通过精确控制采样过程中的系数,保持图像的原始信息,减少噪声伪影的产生。
技术框架:论文提出的系数保持采样(CPS)方法主要包含以下几个阶段:1) 分析基于SDE的采样过程中的噪声来源;2) 基于DDIM的原理,推导出新的采样公式,该公式允许在一定程度上控制采样过程的随机性;3) 将CPS方法应用于Flow Matching模型的训练和推理过程中,并结合强化学习优化器(如Flow-GRPO和Dance-GRPO)进行优化。
关键创新:最重要的技术创新点在于提出了系数保持采样(CPS)方法,该方法能够有效地消除Flow Matching模型中由于SDE采样引入的噪声伪影。与传统的SDE采样方法相比,CPS方法能够更精确地控制采样过程中的随机性,从而生成更高质量的图像,并提高奖励学习的准确性。
关键设计:CPS方法的关键设计在于对采样过程中的系数进行精确控制。具体来说,论文推导了一个新的采样公式,该公式允许在每一步采样中,根据预定义的系数来调整随机噪声的强度。通过合理选择这些系数,可以有效地减少噪声伪影的产生,同时保持图像的多样性。此外,论文还针对Flow-GRPO和Dance-GRPO等强化学习优化器,对CPS方法进行了优化,以进一步提高其性能。
🖼️ 关键图片
📊 实验亮点
论文提出的系数保持采样(CPS)方法能够显著减少Flow Matching模型生成的图像中的噪声伪影,从而提高奖励学习的准确性。实验结果表明,与传统的SDE采样方法相比,CPS方法能够使Flow-GRPO和Dance-GRPO等强化学习优化器更快、更稳定地收敛。具体性能数据将在后续发布的代码中提供。
🎯 应用场景
该研究成果可广泛应用于图像和视频生成领域,尤其是在需要高质量和与提示对齐的场景下。例如,可以用于生成逼真的人物肖像、风景照片或艺术作品。此外,该方法还可以应用于其他生成模型,如GANs和VAEs,以提高生成图像的质量和可控性。未来,该研究有望推动生成模型在创意设计、虚拟现实和游戏开发等领域的应用。
📄 摘要(原文)
Reinforcement Learning (RL) has recently emerged as a powerful technique for improving image and video generation in Diffusion and Flow Matching models, specifically for enhancing output quality and alignment with prompts. A critical step for applying online RL methods on Flow Matching is the introduction of stochasticity into the deterministic framework, commonly realized by Stochastic Differential Equation (SDE). Our investigation reveals a significant drawback to this approach: SDE-based sampling introduces pronounced noise artifacts in the generated images, which we found to be detrimental to the reward learning process. A rigorous theoretical analysis traces the origin of this noise to an excess of stochasticity injected during inference. To address this, we draw inspiration from Denoising Diffusion Implicit Models (DDIM) to reformulate the sampling process. Our proposed method, Coefficients-Preserving Sampling (CPS), eliminates these noise artifacts. This leads to more accurate reward modeling, ultimately enabling faster and more stable convergence for reinforcement learning-based optimizers like Flow-GRPO and Dance-GRPO. Code will be released at https://github.com/IamCreateAI/FlowCPS