GRPO-Guard: Mitigating Implicit Over-Optimization in Flow Matching via Regulated Clipping

作者: Jing Wang, Jiajun Liang, Jie Liu, Henglin Liu, Gongye Liu, Jun Zheng, Wanyuan Pang, Ao Ma, Zhenyu Xie, Xintao Wang, Meng Wang, Pengfei Wan, Xiaodan Liang

分类: cs.CV, cs.LG

发布日期: 2025-10-25 (更新: 2025-10-30)

备注: Project Page: https://jingw193.github.io/GRPO-Guard/

💡 一句话要点

GRPO-Guard：通过调节裁剪缓解Flow Matching中的隐式过度优化

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: Flow Matching 强化学习 过度优化 扩散模型 生成模型 重要性采样 梯度裁剪

📋 核心要点

现有基于GRPO的Flow Matching方法存在隐式过度优化问题，导致图像质量和文本对齐等关键指标下降。
GRPO-Guard通过比率归一化和梯度重加权，实现调节裁剪机制，稳定优化过程，缓解过度优化。
实验表明，GRPO-Guard在多个扩散模型和代理任务上，显著减少过度优化，并保持或提升生成质量。

📝 摘要（中文）

最近，基于GRPO的强化学习在优化flow-matching模型方面取得了显著进展，有效地提高了模型与特定任务奖励的对齐程度。在这些框架中，策略更新依赖于重要性比率裁剪来约束过度自信的正梯度和负梯度。然而，在实践中，我们观察到重要性比率分布的系统性偏移——其均值低于1，并且其方差在不同时间步长上差异很大。这种左移且不一致的分布阻止了正优势样本进入裁剪区域，导致该机制无法约束过度自信的正向更新。因此，策略模型不可避免地进入隐式过度优化阶段——虽然代理奖励持续增加，但图像质量和文本提示对齐等关键指标急剧下降，最终使得学习到的策略在实际应用中变得不切实际。为了解决这个问题，我们引入了GRPO-Guard，这是对现有GRPO框架的一个简单而有效的增强。我们的方法结合了比率归一化，它恢复了平衡且步长一致的重要性比率，确保PPO裁剪能够正确地约束去噪时间步长上的有害更新。此外，梯度重加权策略均衡了噪声条件下的策略梯度，防止来自特定时间步长区域的过度更新。总之，这些设计充当了一种调节裁剪机制，稳定了优化过程，并在不依赖于繁重的KL正则化的情况下，大大缓解了隐式过度优化。在多个扩散骨干网络（例如，SD3.5M，Flux.1-dev）和各种代理任务上的大量实验表明，GRPO-Guard显著减少了过度优化，同时保持甚至提高了生成质量。

🔬 方法详解

问题定义：论文旨在解决基于GRPO的Flow Matching模型训练过程中出现的隐式过度优化问题。现有方法依赖重要性比率裁剪来约束梯度更新，但实际中重要性比率分布存在偏移和不一致性，导致裁剪机制失效，模型在代理奖励提升的同时，图像质量等关键指标下降。

核心思路：论文的核心思路是通过调节裁剪机制，使其能够有效地约束有害的梯度更新，从而避免隐式过度优化。具体来说，通过恢复平衡且步长一致的重要性比率，并均衡噪声条件下的策略梯度，来稳定优化过程。

技术框架：GRPO-Guard是对现有GRPO框架的增强，主要包含两个模块：比率归一化和梯度重加权。比率归一化用于恢复重要性比率的平衡和一致性，梯度重加权用于均衡不同噪声条件下的策略梯度。这两个模块共同作用，形成一个调节裁剪机制。整体流程是在GRPO框架的基础上，在计算重要性比率和更新策略时，加入这两个模块进行调整。

关键创新：论文的关键创新在于提出了一个调节裁剪机制，通过比率归一化和梯度重加权，解决了现有GRPO方法中重要性比率分布偏移和不一致的问题，从而有效地约束了有害的梯度更新，缓解了隐式过度优化。与现有方法相比，GRPO-Guard不需要依赖繁重的KL正则化，实现更稳定的优化。

关键设计：比率归一化通过对重要性比率进行标准化，使其均值接近1，方差在不同时间步长上保持一致。梯度重加权通过对不同噪声条件下的策略梯度进行加权，使得每个噪声条件对策略更新的贡献更加均衡。具体的参数设置和损失函数细节在论文中进行了详细描述，例如，如何选择合适的标准化方法和加权系数。

📊 实验亮点

实验结果表明，GRPO-Guard在SD3.5M和Flux.1-dev等多个扩散模型上，以及图像生成和文本生成等多个代理任务上，都能够显著减少过度优化，同时保持甚至提高生成质量。具体来说，GRPO-Guard在某些任务上能够将图像质量指标提升超过10%，同时保持文本对齐度。

🎯 应用场景

GRPO-Guard可应用于各种基于Flow Matching的生成模型训练，例如图像生成、文本生成等。该方法能够提高生成模型的稳定性和生成质量，避免过度优化导致的性能下降，具有广泛的应用前景和实际价值。未来可进一步探索其在其他强化学习任务中的应用。

📄 摘要（原文）

Recently, GRPO-based reinforcement learning has shown remarkable progress in optimizing flow-matching models, effectively improving their alignment with task-specific rewards. Within these frameworks, the policy update relies on importance-ratio clipping to constrain overconfident positive and negative gradients. However, in practice, we observe a systematic shift in the importance-ratio distribution-its mean falls below 1 and its variance differs substantially across timesteps. This left-shifted and inconsistent distribution prevents positive-advantage samples from entering the clipped region, causing the mechanism to fail in constraining overconfident positive updates. As a result, the policy model inevitably enters an implicit over-optimization stage-while the proxy reward continues to increase, essential metrics such as image quality and text-prompt alignment deteriorate sharply, ultimately making the learned policy impractical for real-world use. To address this issue, we introduce GRPO-Guard, a simple yet effective enhancement to existing GRPO frameworks. Our method incorporates ratio normalization, which restores a balanced and step-consistent importance ratio, ensuring that PPO clipping properly constrains harmful updates across denoising timesteps. In addition, a gradient reweighting strategy equalizes policy gradients over noise conditions, preventing excessive updates from particular timestep regions. Together, these designs act as a regulated clipping mechanism, stabilizing optimization and substantially mitigating implicit over-optimization without relying on heavy KL regularization. Extensive experiments on multiple diffusion backbones (e.g., SD3.5M, Flux.1-dev) and diverse proxy tasks demonstrate that GRPO-Guard significantly reduces over-optimization while maintaining or even improving generation quality.

GRPO-Guard: Mitigating Implicit Over-Optimization in Flow Matching via Regulated Clipping

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册