GRPO-Guard: Mitigating Implicit Over-Optimization in Flow Matching via Regulated Clipping

作者: Jing Wang, Jiajun Liang, Jie Liu, Henglin Liu, Gongye Liu, Jun Zheng, Wanyuan Pang, Ao Ma, Zhenyu Xie, Xintao Wang, Meng Wang, Pengfei Wan, Xiaodan Liang

分类: cs.CV, cs.LG

发布日期: 2025-10-25 (更新: 2025-10-30)

备注: Project Page: https://jingw193.github.io/GRPO-Guard/

💡 一句话要点

GRPO-Guard：通过调节裁剪缓解Flow Matching中的隐式过度优化

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: Flow Matching 强化学习 过度优化 扩散模型 梯度裁剪 比率归一化 图像生成 文本到图像生成

📋 核心要点

现有基于GRPO的Flow Matching方法存在隐式过度优化问题，导致图像质量和文本对齐等关键指标下降。
GRPO-Guard通过比率归一化和梯度重加权，实现调节裁剪机制，稳定优化过程，缓解过度优化。
实验表明，GRPO-Guard在多个扩散模型和任务上，显著减少过度优化，并保持或提升生成质量。

📝 摘要（中文）

近年来，基于GRPO的强化学习在优化Flow Matching模型方面取得了显著进展，有效地提高了模型与特定任务奖励的对齐程度。在这些框架中，策略更新依赖于重要性比率裁剪来约束过度自信的正向和负向梯度。然而，在实践中，我们观察到重要性比率分布存在系统性偏移——其均值低于1，且方差在不同时间步长上差异显著。这种左移且不一致的分布阻止了正向优势样本进入裁剪区域，导致该机制无法约束过度自信的正向更新。因此，策略模型不可避免地进入隐式过度优化阶段——虽然代理奖励持续增加，但图像质量和文本提示对齐等关键指标急剧下降，最终导致学习到的策略在实际应用中变得不切实际。为了解决这个问题，我们引入了GRPO-Guard，这是对现有GRPO框架的一个简单而有效的增强。我们的方法结合了比率归一化，恢复了平衡且步长一致的重要性比率，确保PPO裁剪能够正确约束去噪时间步长上的有害更新。此外，梯度重加权策略均衡了噪声条件下的策略梯度，防止特定时间步长区域的过度更新。这些设计共同构成了一种调节裁剪机制，稳定了优化过程，并在不依赖于大量KL正则化的情况下，显著缓解了隐式过度优化。在多个扩散骨干网络（例如，SD3.5M，Flux.1-dev）和各种代理任务上的大量实验表明，GRPO-Guard显著减少了过度优化，同时保持甚至提高了生成质量。

🔬 方法详解

问题定义：论文旨在解决基于GRPO的Flow Matching模型训练过程中出现的隐式过度优化问题。现有方法依赖重要性比率裁剪来约束梯度更新，但实际中重要性比率分布存在偏移和不一致性，导致裁剪失效，模型在代理奖励提升的同时，图像质量等关键指标下降。

核心思路：论文的核心思路是通过调节裁剪机制，恢复重要性比率的平衡和一致性，并均衡不同噪声条件下的梯度更新，从而稳定优化过程，避免模型陷入隐式过度优化。

技术框架：GRPO-Guard是在现有GRPO框架上的增强，主要包含两个模块：比率归一化和梯度重加权。比率归一化用于恢复重要性比率的平衡和步长一致性，确保PPO裁剪有效约束有害更新。梯度重加权用于均衡不同噪声条件下的策略梯度，防止特定时间步长区域的过度更新。这两个模块共同作用，形成一个调节裁剪机制。

关键创新：论文的关键创新在于提出了一个调节裁剪机制，通过比率归一化和梯度重加权，解决了GRPO在Flow Matching中存在的隐式过度优化问题。与现有方法相比，GRPO-Guard不需要依赖大量的KL正则化，就能有效稳定优化过程，并提升生成质量。

关键设计：比率归一化通过对重要性比率进行标准化，使其均值接近1，方差在不同时间步长上保持一致。梯度重加权通过调整不同噪声条件下的梯度权重，使得策略梯度在各个时间步长上更加均衡。具体的参数设置和损失函数细节在论文中有详细描述，旨在平衡不同时间步长上的学习速率，防止某些区域的梯度主导整个训练过程。

🖼️ 关键图片

📊 实验亮点

实验结果表明，GRPO-Guard在SD3.5M和Flux.1-dev等多个扩散模型上，以及图像生成和文本到图像生成等任务上，均能显著减少过度优化，并保持甚至提高生成质量。例如，在某些任务上，GRPO-Guard能够在保持图像质量的同时，显著提高文本提示对齐度。

🎯 应用场景

该研究成果可应用于各种基于Flow Matching的生成模型训练，例如图像生成、文本到图像生成等。通过缓解隐式过度优化，可以提高生成模型的稳定性和生成质量，使其在实际应用中更具实用价值。未来，该方法可以进一步推广到其他强化学习优化生成模型的场景。

📄 摘要（原文）

Recently, GRPO-based reinforcement learning has shown remarkable progress in optimizing flow-matching models, effectively improving their alignment with task-specific rewards. Within these frameworks, the policy update relies on importance-ratio clipping to constrain overconfident positive and negative gradients. However, in practice, we observe a systematic shift in the importance-ratio distribution-its mean falls below 1 and its variance differs substantially across timesteps. This left-shifted and inconsistent distribution prevents positive-advantage samples from entering the clipped region, causing the mechanism to fail in constraining overconfident positive updates. As a result, the policy model inevitably enters an implicit over-optimization stage-while the proxy reward continues to increase, essential metrics such as image quality and text-prompt alignment deteriorate sharply, ultimately making the learned policy impractical for real-world use. To address this issue, we introduce GRPO-Guard, a simple yet effective enhancement to existing GRPO frameworks. Our method incorporates ratio normalization, which restores a balanced and step-consistent importance ratio, ensuring that PPO clipping properly constrains harmful updates across denoising timesteps. In addition, a gradient reweighting strategy equalizes policy gradients over noise conditions, preventing excessive updates from particular timestep regions. Together, these designs act as a regulated clipping mechanism, stabilizing optimization and substantially mitigating implicit over-optimization without relying on heavy KL regularization. Extensive experiments on multiple diffusion backbones (e.g., SD3.5M, Flux.1-dev) and diverse proxy tasks demonstrate that GRPO-Guard significantly reduces over-optimization while maintaining or even improving generation quality.

GRPO-Guard: Mitigating Implicit Over-Optimization in Flow Matching via Regulated Clipping

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理