UniGRPO: Unified Policy Optimization for Reasoning-Driven Visual Generation

作者: Jie Liu, Zilyu Ye, Linxiao Yuan, Shenhan Zhu, Yu Gao, Jie Wu, Kunchang Li, Xionghui Wang, Xiaonan Nie, Weilin Huang, Wanli Ouyang

分类: cs.CV

发布日期: 2026-03-24

💡 一句话要点

提出UniGRPO，用于推理驱动的视觉生成统一策略优化

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱四：生成式动作 (Generative Motion) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉生成 强化学习 策略优化 交错生成 推理驱动

📋 核心要点

现有交错生成模型主要依赖自回归文本建模和流匹配图像生成，缺乏统一的优化框架。
UniGRPO将多模态生成建模为马尔可夫决策过程，利用GRPO联合优化文本和图像生成策略。
实验表明，UniGRPO显著提升了推理驱动的图像生成质量，为交错模型提供可扩展基线。

📝 摘要（中文）

本文提出了一种统一的强化学习框架UniGRPO，专门为交错生成任务设计。该方法验证于推理驱动的图像生成这一基本单元上，模型首先通过推理扩展用户提示，然后进行图像合成。该方法将多模态生成过程建模为具有稀疏终端奖励的马尔可夫决策过程，并使用GRPO联合优化文本和图像生成策略。通过无缝集成用于推理的标准GRPO和用于视觉合成的FlowGRPO，避免了过度设计。为了扩展到多轮交错生成，对原始FlowGRPO进行了两项关键修改：消除无分类器指导以保持线性、非分支的rollout，并用速度场上的MSE惩罚代替标准的潜在KL惩罚。实验表明，该统一训练方法显著提高了通过推理的图像生成质量，为未来完全交错模型的后训练提供了一个鲁棒且可扩展的基线。

🔬 方法详解

问题定义：论文旨在解决推理驱动的视觉生成中，文本推理和图像生成策略的联合优化问题。现有方法通常独立训练文本和图像生成模型，缺乏统一的优化框架，难以实现有效的交错生成。此外，将模型扩展到多轮交互式生成也面临挑战，例如如何保持rollout的线性以及如何有效避免奖励黑客。

核心思路：论文的核心思路是将多模态生成过程建模为马尔可夫决策过程（MDP），并利用强化学习方法（GRPO）联合优化文本推理和图像生成策略。通过这种方式，模型可以学习到更有效的策略，从而生成更高质量的图像。此外，通过对FlowGRPO进行修改，使其能够更好地扩展到多轮交互式生成。

技术框架：UniGRPO的整体框架包含两个主要模块：文本推理模块和图像生成模块。文本推理模块负责根据用户提示进行推理，生成更详细的文本描述。图像生成模块则根据文本描述生成图像。这两个模块通过强化学习进行联合优化。具体流程是：首先，用户输入提示，文本推理模块生成文本描述；然后，图像生成模块根据文本描述生成图像；最后，根据生成的图像质量给予奖励，并利用GRPO更新文本推理和图像生成策略。

关键创新：论文的关键创新在于提出了一个统一的强化学习框架UniGRPO，用于联合优化文本推理和图像生成策略。与现有方法相比，UniGRPO能够更好地利用文本和图像之间的关联性，从而生成更高质量的图像。此外，论文还对FlowGRPO进行了两项关键修改，使其能够更好地扩展到多轮交互式生成：一是消除了无分类器指导，二是将潜在KL惩罚替换为速度场上的MSE惩罚。

关键设计：在文本推理模块中，采用了标准的GRPO进行训练。在图像生成模块中，采用了FlowGRPO进行训练，并进行了两项关键修改：一是消除了无分类器指导，以保持线性、非分支的rollout；二是将标准的潜在KL惩罚替换为速度场上的MSE惩罚，以提供更鲁棒和直接的正则化信号，从而有效缓解奖励黑客问题。奖励函数的设计也至关重要，它直接影响着模型的学习效果。具体的奖励函数设计在论文中没有详细描述，属于未知信息。

🖼️ 关键图片

📊 实验亮点

实验结果表明，UniGRPO能够显著提高通过推理的图像生成质量。具体而言，UniGRPO在图像质量指标上优于现有的独立训练方法，并且能够更好地扩展到多轮交互式生成。论文中没有给出具体的性能数据和提升幅度，属于未知信息。

🎯 应用场景

UniGRPO具有广泛的应用前景，例如图像编辑、视觉内容创作、人机交互等领域。它可以用于生成更符合用户需求的图像，提高视觉内容创作的效率和质量，并改善人机交互的体验。未来，该方法有望应用于更复杂的交错生成任务，例如视频生成、3D模型生成等。

📄 摘要（原文）

Unified models capable of interleaved generation have emerged as a promising paradigm, with the community increasingly converging on autoregressive modeling for text and flow matching for image generation. To advance this direction, we propose a unified reinforcement learning framework tailored for interleaved generation. We validate our approach on its fundamental unit: a single round of reasoning-driven image generation, where the model first expands the user prompt through reasoning, followed by image synthesis. Formulating this multimodal generation process as a Markov Decision Process with sparse terminal rewards, we introduce UniGRPO to jointly optimize text and image generation policies using GRPO. Adopting a minimalist methodology to avoid over-design, we leverage established training recipes for both modalities by seamlessly integrating standard GRPO for reasoning and FlowGRPO for visual synthesis. To ensure scalability to multi-round interleaved generation, we introduce two critical modifications to the original FlowGRPO: (1) eliminating classifier-free guidance to maintain linear, unbranched rollouts, which is essential for scaling to complex scenarios involving multi-turn interactions and multi-condition generation (e.g., editing); and (2) replacing the standard latent KL penalty with an MSE penalty directly on the velocity fields, providing a more robust and direct regularization signal to mitigate reward hacking effectively. Our experiments demonstrate that this unified training recipe significantly enhances image generation quality through reasoning, providing a robust and scalable baseline for the future post-training of fully interleaved models.

UniGRPO: Unified Policy Optimization for Reasoning-Driven Visual Generation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理