AlphaGRPO: Unlocking Self-Reflective Multimodal Generation in UMMs via Decompositional Verifiable Reward

📄 arXiv: 2605.12495v1 📥 PDF

作者: Runhui Huang, Jie Wu, Rui Yang, Zhe Liu, Hengshuang Zhao

分类: cs.CV, cs.AI, cs.LG

发布日期: 2026-05-12

备注: ICML2026

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

AlphaGRPO:通过可分解验证奖励解锁UMM中的自反思多模态生成

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态生成 强化学习 自反思 可分解奖励 文本到图像生成

📋 核心要点

  1. 现有UMM模型在复杂多模态生成任务中,难以准确捕捉用户意图,且缺乏自我纠错能力。
  2. AlphaGRPO通过GRPO强化学习,结合可分解验证奖励,使模型具备推理用户意图和自反思改进的能力。
  3. 实验表明,AlphaGRPO在多个多模态生成和编辑基准上显著提升了性能,无需额外冷启动或编辑任务训练。

📝 摘要(中文)

本文提出了AlphaGRPO,一个新颖的框架,将Group Relative Policy Optimization (GRPO) 应用于AR-Diffusion统一多模态模型 (UMMs),以增强多模态生成能力,而无需额外的冷启动阶段。我们的方法解锁了模型执行高级推理任务的内在潜力:推理文本到图像生成,模型主动推断隐式用户意图;以及自反思改进,模型自主诊断和纠正生成输出中的错位。为了解决为真实世界多模态生成提供稳定监督的挑战,我们引入了可分解验证奖励 (DVReward)。与整体标量奖励不同,DVReward利用LLM将复杂的用户请求分解为原子性的、可验证的语义和质量问题,然后由通用MLLM评估这些问题,以提供可靠且可解释的反馈。大量实验表明,AlphaGRPO在多模态生成基准测试(包括GenEval、TIIF-Bench、DPG-Bench和WISE)中产生了稳健的改进,同时在GEdit上的编辑任务中也取得了显著的收益,而无需在编辑任务上进行训练。这些结果验证了我们的自反思强化方法有效地利用了固有的理解来指导高保真生成。

🔬 方法详解

问题定义:现有的统一多模态模型(UMMs)在处理复杂的多模态生成任务时,面临着两个主要问题。一是难以准确捕捉用户隐式的意图,导致生成结果与用户期望不符。二是缺乏自我反思和纠错的能力,无法自动诊断和修正生成结果中的错误或不一致之处。这些问题限制了UMMs在实际应用中的效果和用户体验。

核心思路:AlphaGRPO的核心思路是通过强化学习的方式,提升UMM的推理和自反思能力。具体来说,它利用Group Relative Policy Optimization (GRPO) 算法,鼓励模型探索不同的生成策略,并根据反馈进行优化。同时,引入了Decompositional Verifiable Reward (DVReward) 机制,将复杂的奖励信号分解为多个可验证的子问题,从而提供更稳定和可解释的监督信号。

技术框架:AlphaGRPO的整体框架包括以下几个主要模块:1) AR-Diffusion UMM:作为生成模型的基础。2) GRPO:用于优化生成策略的强化学习算法。3) DVReward:用于提供分解和可验证的奖励信号。DVReward首先使用LLM将用户请求分解为多个原子性的问题,然后使用MLLM对生成结果进行评估,并给出相应的奖励。4) 自反思模块:利用DVReward的反馈,模型可以自主诊断和纠正生成结果中的错误。

关键创新:AlphaGRPO的关键创新在于以下几个方面:1) 将GRPO应用于UMM,实现更有效的策略优化。2) 提出了DVReward机制,解决了多模态生成中奖励信号不稳定和难以解释的问题。3) 实现了模型的自反思能力,使其能够自主诊断和纠正生成结果中的错误。

关键设计:DVReward的设计是关键。它利用LLM将复杂的用户请求分解为多个原子性的、可验证的语义和质量问题,例如“图像中是否包含X物体?”、“图像的清晰度如何?”。然后,使用一个通用的MLLM(例如BLIP-2)来回答这些问题,并根据答案给出相应的奖励。这种分解的方式使得奖励信号更加稳定和可解释,从而能够更好地指导模型的训练。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,AlphaGRPO在GenEval、TIIF-Bench、DPG-Bench和WISE等多个多模态生成基准测试中取得了显著的提升。例如,在TIIF-Bench上,AlphaGRPO的性能超过了现有最佳方法。此外,AlphaGRPO在GEdit上的编辑任务中也取得了显著的收益,而无需在编辑任务上进行训练,这表明了其强大的泛化能力。

🎯 应用场景

AlphaGRPO具有广泛的应用前景,例如智能图像编辑、个性化内容生成、以及人机交互等领域。它可以用于生成更符合用户意图的高质量图像,并能够自动修复生成结果中的错误,从而提高用户体验和工作效率。未来,该技术有望应用于虚拟现实、游戏开发、广告设计等领域。

📄 摘要(原文)

In this paper, we propose AlphaGRPO, a novel framework that applies Group Relative Policy Optimization (GRPO) to AR-Diffusion Unified Multimodal Models (UMMs) to enhance multimodal generation capabilities without an additional cold-start stage. Our approach unlocks the model's intrinsic potential to perform advanced reasoning tasks: Reasoning Text-to-Image Generation, where the model actively infers implicit user intents, and Self-Reflective Refinement, where it autonomously diagnoses and corrects misalignments in generated outputs. To address the challenge of providing stable supervision for real-world multimodal generation, we introduce the Decompositional Verifiable Reward (DVReward). Unlike holistic scalar rewards, DVReward utilizes an LLM to decompose complex user requests into atomic, verifiable semantic and quality questions, which are then evaluated by a general MLLM to provide reliable and interpretable feedback. Extensive experiments demonstrate that AlphaGRPO yields robust improvements across multimodal generation benchmarks, including GenEval, TIIF-Bench, DPG-Bench and WISE, while also achieving significant gains in editing tasks on GEdit without training on editing tasks. These results validate that our self-reflective reinforcement approach effectively leverages inherent understanding to guide high-fidelity generation. Project page: https://huangrh99.github.io/AlphaGRPO/