Co-GRPO: Co-Optimized Group Relative Policy Optimization for Masked Diffusion Model

作者: Renping Zhou, Zanlin Ni, Tianyi Chen, Zeyu Liu, Yang Yue, Yulin Wang, Yuxuan Wang, Jingshu Liu, Gao Huang

分类: cs.LG, cs.AI, cs.CV

发布日期: 2025-12-25

备注: 17 pages, 6 figures

💡 一句话要点

提出Co-GRPO，协同优化Masked Diffusion Model及其解码策略，提升生成质量。

🎯 匹配领域: 支柱四：生成式动作 (Generative Motion)

关键词: Masked Diffusion Model 生成模型 马尔可夫决策过程 策略优化 协同优化 推理调度 轨迹优化

📋 核心要点

MDM推理依赖多步迭代和解码策略，但传统训练采用单步BERT式目标，忽略了推理过程中的轨迹级优化。
Co-GRPO将MDM生成建模为MDP，联合优化模型参数和推理调度策略，实现训练与推理的对齐。
实验表明，Co-GRPO在多个基准测试中显著提升了生成质量，验证了其有效性。

📝 摘要（中文）

近年来，Masked Diffusion Models (MDMs) 在视觉、语言和跨模态生成方面展现出巨大潜力。然而，MDM的训练和推理过程存在显著差异。MDM推理是一个多步迭代过程，不仅受模型本身控制，还受各种调度策略（例如，每步解码多少个token）支配。相比之下，MDM通常使用简化的单步BERT式目标进行训练，该目标掩盖一部分token并同时预测所有token。这种步级简化从根本上将训练范式与推理的轨迹级性质分离，导致推理调度策略在训练期间从未得到优化。本文提出了Co-GRPO，它将MDM生成重新定义为一个统一的马尔可夫决策过程（MDP），该过程共同包含模型和推理调度。通过在轨迹级别应用Group Relative Policy Optimization，Co-GRPO在共享奖励下协同优化模型参数和调度参数，而无需通过多步生成过程进行昂贵的反向传播。这种整体优化使训练与推理更加彻底地对齐，并显着提高生成质量。在四个基准测试（ImageReward、HPS、GenEval和DPG-Bench）上的实验结果证明了该方法的有效性。

🔬 方法详解

问题定义：Masked Diffusion Models (MDMs) 在生成任务中表现出色，但其训练和推理过程存在不一致性。训练通常采用单步BERT式目标，而推理是多步迭代过程，依赖于解码策略。这种差异导致训练过程中无法优化推理调度，影响生成质量。现有方法缺乏对模型和解码策略的协同优化。

核心思路：Co-GRPO的核心思路是将MDM的生成过程建模为一个马尔可夫决策过程（MDP），从而能够同时优化模型参数和推理调度策略。通过将两者纳入统一的框架，Co-GRPO旨在弥合训练和推理之间的差距，使模型在训练过程中能够学习到更优的解码轨迹。

技术框架：Co-GRPO的技术框架主要包含以下几个部分：1) 将MDM生成过程形式化为MDP，其中状态是当前已解码的token序列，动作是选择下一个要解码的token集合以及相应的解码策略。2) 使用Group Relative Policy Optimization (GRPO) 算法，在轨迹级别优化模型参数和调度参数。3) 设计一个共享奖励函数，用于评估生成结果的质量，并指导模型和调度策略的优化。

关键创新：Co-GRPO的关键创新在于：1) 将MDM生成过程建模为MDP，从而能够同时优化模型和调度策略。2) 采用Group Relative Policy Optimization (GRPO) 算法，避免了通过多步生成过程进行昂贵的反向传播。3) 提出了一种协同优化框架，能够有效地对齐训练和推理过程。

关键设计：Co-GRPO的关键设计包括：1) MDP的状态空间、动作空间和奖励函数的定义。状态空间包含已解码的token序列，动作空间包含选择下一个要解码的token集合以及相应的解码策略。奖励函数用于评估生成结果的质量，例如使用ImageReward、HPS等指标。2) GRPO算法的具体实现，包括如何构建策略网络、如何计算梯度以及如何更新模型参数和调度参数。3) 模型和调度策略的参数化方式，例如使用神经网络来表示模型，并使用可学习的参数来控制解码策略。

🖼️ 关键图片

📊 实验亮点

Co-GRPO在ImageReward、HPS、GenEval和DPG-Bench四个基准测试上进行了评估，实验结果表明，Co-GRPO能够显著提高生成质量。例如，在ImageReward基准测试中，Co-GRPO相比基线方法取得了显著的性能提升，证明了其有效性。具体提升幅度在论文中有详细数据。

🎯 应用场景

Co-GRPO具有广泛的应用前景，可用于图像生成、文本生成、跨模态生成等领域。通过协同优化模型和解码策略，可以显著提高生成质量，生成更逼真、更符合用户需求的图像和文本。该方法还可以应用于其他序列生成任务，例如机器翻译、语音合成等，具有重要的实际价值和未来影响。

📄 摘要（原文）

Recently, Masked Diffusion Models (MDMs) have shown promising potential across vision, language, and cross-modal generation. However, a notable discrepancy exists between their training and inference procedures. In particular, MDM inference is a multi-step, iterative process governed not only by the model itself but also by various schedules that dictate the token-decoding trajectory (e.g., how many tokens to decode at each step). In contrast, MDMs are typically trained using a simplified, single-step BERT-style objective that masks a subset of tokens and predicts all of them simultaneously. This step-level simplification fundamentally disconnects the training paradigm from the trajectory-level nature of inference, leaving the inference schedules never optimized during training. In this paper, we introduce Co-GRPO, which reformulates MDM generation as a unified Markov Decision Process (MDP) that jointly incorporates both the model and the inference schedule. By applying Group Relative Policy Optimization at the trajectory level, Co-GRPO cooperatively optimizes model parameters and schedule parameters under a shared reward, without requiring costly backpropagation through the multi-step generation process. This holistic optimization aligns training with inference more thoroughly and substantially improves generation quality. Empirical results across four benchmarks-ImageReward, HPS, GenEval, and DPG-Bench-demonstrate the effectiveness of our approach. For more details, please refer to our project page: https://co-grpo.github.io/ .

Co-GRPO: Co-Optimized Group Relative Policy Optimization for Masked Diffusion Model

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理