UniRL: Self-Improving Unified Multimodal Models via Supervised and Reinforcement Learning

📄 arXiv: 2505.23380v1 📥 PDF

作者: Weijia Mao, Zhenheng Yang, Mike Zheng Shou

分类: cs.CV

发布日期: 2025-05-29

🔗 代码/项目: GITHUB


💡 一句话要点

提出UniRL,通过自生成数据和强化学习提升统一多模态模型的性能。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 自监督学习 强化学习 图像生成 视觉理解 统一模型 后训练 大语言模型

📋 核心要点

  1. 现有统一多模态模型依赖大规模数据集和大量计算资源进行预训练,后训练方法也常依赖外部数据或局限于特定任务。
  2. UniRL通过让模型生成图像并用于自身训练,实现了无需外部数据的自提升,并促进了生成和理解任务的相互增强。
  3. 实验表明,UniRL在Show-o和Janus模型上取得了显著的GenEval分数提升,且仅需少量额外训练步骤。

📝 摘要(中文)

本文提出了一种名为UniRL的自提升后训练方法,用于统一多模态大语言模型。该方法无需外部图像数据,通过模型自身生成图像并将其作为训练数据,在每次迭代中提升模型性能。UniRL使生成和理解任务能够相互促进:生成的图像用于提升理解能力,而理解结果则用于监督生成过程。论文探索了监督微调(SFT)和群体相对策略优化(GRPO)来优化模型。UniRL具有三个关键优势:无需外部图像数据,所有训练样本均由模型自身在训练期间生成;不仅提高了单个任务的性能,还减少了生成和理解之间的不平衡;在后训练阶段仅需少量额外的训练步骤。在Show-o和Janus模型上的评估结果表明,UniRL分别实现了0.77和0.65的GenEval分数。

🔬 方法详解

问题定义:现有统一多模态模型,如Show-o和Janus,虽然在生成和理解任务上表现出色,但依赖于大规模数据集的预训练,计算成本高昂。此外,现有的后训练方法通常需要外部数据或针对特定任务进行定制,缺乏通用性和自适应性。因此,如何高效地提升统一多模态模型的性能,同时减少对外部数据的依赖,是一个重要的挑战。

核心思路:UniRL的核心思路是利用模型自身的能力,通过生成图像并将其作为训练数据,实现自提升。这种方法避免了对外部数据的依赖,并允许生成和理解任务相互促进。具体来说,模型首先根据文本提示生成图像,然后利用这些生成的图像来提升其理解能力,同时利用理解的结果来监督图像生成过程,从而形成一个正反馈循环。

技术框架:UniRL的整体框架包括两个主要阶段:图像生成和模型优化。在图像生成阶段,模型根据给定的文本提示生成图像。在模型优化阶段,使用生成的图像作为训练数据,通过监督微调(SFT)和群体相对策略优化(GRPO)来优化模型。SFT用于直接监督模型的生成和理解能力,而GRPO则用于鼓励模型生成更高质量的图像,并更好地利用这些图像进行理解。整个过程迭代进行,每次迭代都使用模型生成的新图像来更新模型。

关键创新:UniRL的关键创新在于其自提升的训练方式,即模型利用自身生成的数据进行训练,无需外部数据。这种方法不仅降低了对外部数据的依赖,还允许生成和理解任务相互促进,从而实现更高效的模型优化。此外,UniRL还探索了GRPO在多模态模型优化中的应用,通过强化学习的方式鼓励模型生成更高质量的图像。

关键设计:UniRL的关键设计包括:1) 使用文本提示生成图像,确保生成图像与文本描述的一致性;2) 使用SFT直接监督模型的生成和理解能力,确保模型能够准确地生成图像并理解图像内容;3) 使用GRPO通过奖励机制鼓励模型生成更高质量的图像,并更好地利用这些图像进行理解。具体的损失函数包括生成损失和理解损失,用于衡量模型在生成和理解任务上的表现。GRPO的奖励函数则基于生成图像的质量和与文本描述的相关性进行设计。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

UniRL在Show-o和Janus模型上进行了评估,结果表明该方法能够显著提升模型的性能。具体来说,UniRL在Show-o模型上实现了0.77的GenEval分数,在Janus模型上实现了0.65的GenEval分数。这些结果表明,UniRL能够有效地提升统一多模态模型的生成和理解能力,且无需外部图像数据。

🎯 应用场景

UniRL具有广泛的应用前景,例如可以应用于图像生成、图像描述、视觉问答等领域。该方法可以用于构建无需大量标注数据的多模态应用,降低开发成本。此外,UniRL的自提升特性使其能够适应不同的任务和数据分布,具有很强的通用性和可扩展性。未来,UniRL可以应用于机器人、自动驾驶等领域,提升机器对环境的感知和理解能力。

📄 摘要(原文)

Unified multimodal large language models such as Show-o and Janus have achieved strong performance across both generation and understanding tasks. However, these models typically rely on large-scale datasets and require substantial computation during the pretraining stage. In addition, several post-training methods have been proposed, but they often depend on external data or are limited to task-specific customization. In this work, we introduce UniRL, a self-improving post-training approach. Our approach enables the model to generate images from prompts and use them as training data in each iteration, without relying on any external image data. Moreover, it enables the two tasks to enhance each other: the generated images are used for understanding, and the understanding results are used to supervise generation. We explore supervised fine-tuning (SFT) and Group Relative Policy Optimization (GRPO) to optimize the models. UniRL offers three key advantages: (1) it requires no external image data, as all training samples are generated by the model itself during training; (2) it not only improves individual task performance, but also reduces the imbalance between generation and understanding; and (3) it requires only several additional training steps during the post-training stage. We evaluate UniRL on top of Show-o and Janus, achieving a GenEval score of 0.77 for Show-o and 0.65 for Janus. Code and models will be released in https://github.com/showlab/UniRL.