Rethinking UMM Visual Generation: Masked Modeling for Efficient Image-Only Pre-training
作者: Peng Sun, Jun Xie, Tao Lin
分类: cs.CV
发布日期: 2026-03-17
备注: https://github.com/LINs-lab/IOMM
🔗 代码/项目: GITHUB
💡 一句话要点
提出IOMM:通过图像掩码建模实现高效的UMM视觉生成预训练
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 统一多模态模型 视觉生成 图像预训练 掩码建模 数据高效学习
📋 核心要点
- 现有UMM视觉生成组件的预训练依赖低效方法和稀缺的高质量文本-图像对数据,限制了模型性能。
- IOMM框架通过两阶段训练,首先利用大量无标签图像数据进行预训练,然后使用少量配对数据微调。
- 实验表明,IOMM显著提升了训练效率,并在GenEval和WISE等基准测试中取得了SOTA性能。
📝 摘要(中文)
统一多模态模型(UMMs)通常受限于其视觉生成组件的预训练,而这些预训练通常依赖于低效的范式和稀缺的高质量文本-图像配对数据。本文系统地分析了UMM视觉生成的预训练方法,并将这两个问题确定为主要瓶颈。为了解决这些问题,我们提出了UMMs的图像训练(IOMM),这是一个数据高效的两阶段训练框架。第一阶段仅使用大量的未标记图像数据来预训练视觉生成组件,从而消除了对配对数据在此昂贵阶段的依赖。第二阶段使用未标记图像和少量精选的文本-图像对的混合来微调模型,从而提高了指令对齐和生成质量。大量的实验表明,IOMM不仅提高了训练效率,而且实现了最先进的(SOTA)性能。
🔬 方法详解
问题定义:论文旨在解决统一多模态模型(UMMs)中视觉生成组件预训练效率低下的问题。现有方法依赖于大量的文本-图像配对数据,而高质量的配对数据获取成本高昂且数量有限。这限制了UMMs的训练规模和性能,同时也增加了训练成本。
核心思路:论文的核心思路是将视觉生成组件的预训练与文本信息解耦,利用大量的无标签图像数据进行预训练,从而降低对配对数据的依赖。通过这种方式,可以更有效地利用数据,并提升模型的泛化能力。
技术框架:IOMM框架包含两个主要阶段:图像预训练阶段和多模态微调阶段。在图像预训练阶段,模型仅使用无标签图像数据进行训练,学习图像的潜在表示和生成能力。在多模态微调阶段,模型使用少量文本-图像配对数据和无标签图像数据进行微调,以对齐文本指令和图像生成,并提升生成质量。
关键创新:IOMM的关键创新在于其图像预训练阶段,该阶段完全依赖于无标签图像数据,摆脱了对昂贵的文本-图像配对数据的依赖。这种方法不仅提高了训练效率,还能够利用更大规模的图像数据集,从而提升模型的性能。
关键设计:IOMM-B模型(3.6B参数)的训练使用了约1050个H800 GPU小时,其中1000小时用于图像预训练阶段。具体的技术细节包括:使用掩码图像建模(Masked Image Modeling)作为预训练任务,采用Transformer架构作为视觉生成组件,以及使用混合损失函数在微调阶段平衡文本-图像对齐和图像生成质量。
🖼️ 关键图片
📊 实验亮点
IOMM-B (3.6B) 模型仅使用约1050 H800 GPU小时从头开始训练(其中1000小时用于图像预训练)。在GenEval上达到0.89,在WISE上达到0.55,超过了BAGEL-7B (0.82 & 0.55) 和 BLIP3-o-4B (0.84 & 0.50) 等强基线模型。
🎯 应用场景
该研究成果可广泛应用于图像生成、图像编辑、视觉问答、文本到图像生成等领域。通过降低对配对数据的依赖,IOMM能够促进更大规模、更高质量的UMMs的开发,从而推动人工智能在视觉领域的应用。
📄 摘要(原文)
Unified Multimodal Models (UMMs) are often constrained by the pre-training of their $\textbf{visual generation components}$, which typically relies on inefficient paradigms and scarce, high-quality text-image paired data. In this paper, we systematically analyze pre-training recipes for $\textbf{UMM visual generation}$ and identify these two issues as the major bottlenecks. To address them, we propose $\textbf{Image-Only Training for UMMs (IOMM)}$, a data-efficient two-stage training framework. The first stage pre-trains the visual generative component $\textbf{exclusively}$ using abundant unlabeled image-only data, thereby removing the dependency on paired data $\textbf{for this costly phase}$. The second stage fine-tunes the model using a mixture of unlabeled images and a small curated set of text-image pairs, leading to improved instruction alignment and generative quality. Extensive experiments show that IOMM not only improves training efficiency but also achieves state-of-the-art (SOTA) performance. For example, our IOMM-B (3.6B) model was trained from scratch using only $\sim \textbf{1050}$ H800 GPU hours (with the vast majority, $\textbf{1000}$ hours, dedicated to the efficient $\textbf{image-only pre-training stage}$). It achieves $\textbf{0.89}$ on GenEval and $\textbf{0.55}$ on WISE--surpassing strong baselines such as BAGEL-7B (0.82 & 0.55) and BLIP3-o-4B (0.84 & 0.50). Code is available $\href{https://github.com/LINs-lab/IOMM}{https://github.com/LINs-lab/IOMM}$.