Rethinking UMM Visual Generation: Masked Modeling for Efficient Image-Only Pre-training

作者: Peng Sun, Jun Xie, Tao Lin

分类: cs.CV

发布日期: 2026-03-17

备注: https://github.com/LINs-lab/IOMM

🔗 代码/项目: GITHUB

💡 一句话要点

提出IOMM：通过图像掩码建模实现高效的UMM视觉生成预训练

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 统一多模态模型 视觉生成 图像预训练 掩码建模 数据高效学习

📋 核心要点

现有UMM视觉生成组件的预训练依赖低效方法和稀缺的高质量文本-图像对数据，限制了模型性能。
IOMM框架通过两阶段训练，首先利用大量无标签图像数据进行预训练，然后使用少量配对数据微调。
实验表明，IOMM显著提升了训练效率，并在GenEval和WISE等基准测试中取得了SOTA性能。

📝 摘要（中文）

统一多模态模型(UMMs)通常受限于其视觉生成组件的预训练，而这些预训练通常依赖于低效的范式和稀缺的高质量文本-图像配对数据。本文系统地分析了UMM视觉生成的预训练方法，并将这两个问题确定为主要瓶颈。为了解决这些问题，我们提出了UMMs的图像训练(IOMM)，这是一个数据高效的两阶段训练框架。第一阶段仅使用大量的未标记图像数据来预训练视觉生成组件，从而消除了对配对数据在此昂贵阶段的依赖。第二阶段使用未标记图像和少量精选的文本-图像对的混合来微调模型，从而提高了指令对齐和生成质量。大量的实验表明，IOMM不仅提高了训练效率，而且实现了最先进的(SOTA)性能。

🔬 方法详解

问题定义：论文旨在解决统一多模态模型（UMMs）中视觉生成组件预训练效率低下的问题。现有方法依赖于大量的文本-图像配对数据，而高质量的配对数据获取成本高昂且数量有限。这限制了UMMs的训练规模和性能，同时也增加了训练成本。

核心思路：论文的核心思路是将视觉生成组件的预训练与文本信息解耦，利用大量的无标签图像数据进行预训练，从而降低对配对数据的依赖。通过这种方式，可以更有效地利用数据，并提升模型的泛化能力。

技术框架：IOMM框架包含两个主要阶段：图像预训练阶段和多模态微调阶段。在图像预训练阶段，模型仅使用无标签图像数据进行训练，学习图像的潜在表示和生成能力。在多模态微调阶段，模型使用少量文本-图像配对数据和无标签图像数据进行微调，以对齐文本指令和图像生成，并提升生成质量。

关键创新：IOMM的关键创新在于其图像预训练阶段，该阶段完全依赖于无标签图像数据，摆脱了对昂贵的文本-图像配对数据的依赖。这种方法不仅提高了训练效率，还能够利用更大规模的图像数据集，从而提升模型的性能。

关键设计：IOMM-B模型（3.6B参数）的训练使用了约1050个H800 GPU小时，其中1000小时用于图像预训练阶段。具体的技术细节包括：使用掩码图像建模（Masked Image Modeling）作为预训练任务，采用Transformer架构作为视觉生成组件，以及使用混合损失函数在微调阶段平衡文本-图像对齐和图像生成质量。

🖼️ 关键图片

📊 实验亮点

IOMM-B (3.6B) 模型仅使用约1050 H800 GPU小时从头开始训练（其中1000小时用于图像预训练）。在GenEval上达到0.89，在WISE上达到0.55，超过了BAGEL-7B (0.82 & 0.55) 和 BLIP3-o-4B (0.84 & 0.50) 等强基线模型。

🎯 应用场景

该研究成果可广泛应用于图像生成、图像编辑、视觉问答、文本到图像生成等领域。通过降低对配对数据的依赖，IOMM能够促进更大规模、更高质量的UMMs的开发，从而推动人工智能在视觉领域的应用。

📄 摘要（原文）

Unified Multimodal Models (UMMs) are often constrained by the pre-training of their $\textbf{visual generation components}$, which typically relies on inefficient paradigms and scarce, high-quality text-image paired data. In this paper, we systematically analyze pre-training recipes for $\textbf{UMM visual generation}$ and identify these two issues as the major bottlenecks. To address them, we propose $\textbf{Image-Only Training for UMMs (IOMM)}$, a data-efficient two-stage training framework. The first stage pre-trains the visual generative component $\textbf{exclusively}$ using abundant unlabeled image-only data, thereby removing the dependency on paired data $\textbf{for this costly phase}$. The second stage fine-tunes the model using a mixture of unlabeled images and a small curated set of text-image pairs, leading to improved instruction alignment and generative quality. Extensive experiments show that IOMM not only improves training efficiency but also achieves state-of-the-art (SOTA) performance. For example, our IOMM-B (3.6B) model was trained from scratch using only $\sim \textbf{1050}$ H800 GPU hours (with the vast majority, $\textbf{1000}$ hours, dedicated to the efficient $\textbf{image-only pre-training stage}$). It achieves $\textbf{0.89}$ on GenEval and $\textbf{0.55}$ on WISE--surpassing strong baselines such as BAGEL-7B (0.82 & 0.55) and BLIP3-o-4B (0.84 & 0.50). Code is available $\href{https://github.com/LINs-lab/IOMM}{https://github.com/LINs-lab/IOMM}$.

Rethinking UMM Visual Generation: Masked Modeling for Efficient Image-Only Pre-training

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理