InternVL-U: Democratizing Unified Multimodal Models for Understanding, Reasoning, Generation and Editing
作者: Changyao Tian, Danni Yang, Guanzhou Chen, Erfei Cui, Zhaokai Wang, Yuchen Duan, Penghao Yin, Sitao Chen, Ganlin Yang, Mingxin Liu, Zirun Zhu, Ziqian Fan, Leyao Gu, Haomin Wang, Qi Wei, Jinhui Yin, Xue Yang, Zhihang Zhong, Qi Qin, Yi Xin, Bin Fu, Yihao Liu, Jiaye Ge, Qipeng Guo, Gen Luo, Hongsheng Li, Yu Qiao, Kai Chen, Hongjie Zhang
分类: cs.CV
发布日期: 2026-03-10
备注: technical report, 61 pages, https://github.com/OpenGVLab/InternVL-U
💡 一句话要点
InternVL-U:提出轻量级统一多模态模型,兼顾理解、推理、生成与编辑能力。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态学习 统一模型 图像生成 文本到图像 思维链 视觉编辑 轻量级模型
📋 核心要点
- 现有统一多模态模型在理解和生成能力间存在权衡,难以同时兼顾。
- InternVL-U采用统一上下文建模和模态特定模块化设计,集成了MLLM和MMDiT生成头。
- 通过推理中心的数据合成流程和CoT,InternVL-U在生成和编辑任务上优于更大规模的模型。
📝 摘要(中文)
统一多模态模型(UMMs)在整合理解、推理、生成和编辑能力时,面临着保持强大的语义理解能力和获得强大的生成能力之间的固有权衡。本报告介绍了InternVL-U,一个轻量级的40亿参数UMM,它在一个统一的框架内实现了这些能力的普及。在统一上下文建模和具有解耦视觉表示的模态特定模块化设计的原则指导下,InternVL-U将最先进的多模态大型语言模型(MLLM)与基于MMDiT的专用视觉生成头集成在一起。为了进一步弥合美学生成和高层次智能之间的差距,我们构建了一个全面的数据合成流程,针对高语义密度的任务,例如文本渲染和科学推理,采用以推理为中心的范例,利用思维链(CoT)来更好地将抽象的用户意图与细粒度的视觉生成细节对齐。广泛的实验表明,InternVL-U实现了卓越的性能-效率平衡。尽管仅使用40亿个参数,但在各种生成和编辑任务中,它始终优于规模超过3倍的统一基线模型,如BAGEL(140亿),同时保持了强大的多模态理解和推理能力。
🔬 方法详解
问题定义:现有统一多模态模型(UMMs)难以同时保持强大的语义理解能力和强大的生成能力,尤其是在高语义密度的任务中,例如文本渲染和科学推理。现有方法通常需要在理解和生成之间进行权衡,或者需要大量的参数才能达到较好的效果。
核心思路:InternVL-U的核心思路是构建一个轻量级的(40亿参数)UMM,通过统一的上下文建模和模态特定的模块化设计,实现理解、推理、生成和编辑能力的平衡。通过解耦视觉表示,并结合MLLM和MMDiT生成头,模型可以更好地处理多模态信息,并生成高质量的图像。
技术框架:InternVL-U的整体架构包含一个多模态大型语言模型(MLLM)和一个基于MMDiT的视觉生成头。MLLM负责处理文本和图像输入,并进行理解和推理。MMDiT生成头负责根据MLLM的输出生成图像。此外,模型还包含一个数据合成流程,用于生成高语义密度的数据,以训练模型的生成能力。该流程采用以推理为中心的范例,利用思维链(CoT)来对齐用户意图和视觉生成细节。
关键创新:InternVL-U的关键创新在于其轻量级的设计和统一的框架。通过模态特定的模块化设计和解耦视觉表示,模型可以在保持强大的理解和推理能力的同时,实现高效的图像生成。此外,数据合成流程和CoT的使用,可以更好地训练模型生成具有高语义密度的图像。
关键设计:InternVL-U的关键设计包括:1) 使用MMDiT作为视觉生成头,MMDiT是一种高效的图像生成模型;2) 使用思维链(CoT)来指导数据合成流程,CoT可以帮助模型更好地理解用户意图,并生成更符合用户需求的图像;3) 采用解耦的视觉表示,使得模型可以更好地处理不同模态的信息。
🖼️ 关键图片
📊 实验亮点
InternVL-U仅使用40亿参数,在各种生成和编辑任务中,性能优于参数量超过3倍的基线模型BAGEL(140亿)。这表明InternVL-U在性能和效率之间取得了良好的平衡。在高语义密度任务上,InternVL-U也表现出强大的生成能力,证明了其数据合成流程和CoT的有效性。
🎯 应用场景
InternVL-U具有广泛的应用前景,包括图像编辑、文本到图像生成、科学可视化、教育内容创作等。该模型可以帮助用户更轻松地创建和编辑图像,并可以用于生成具有高语义密度的图像,例如科学图表和文本渲染图像。未来,该模型可以进一步扩展到其他领域,例如视频生成和3D建模。
📄 摘要(原文)
Unified multimodal models (UMMs) that integrate understanding, reasoning, generation, and editing face inherent trade-offs between maintaining strong semantic comprehension and acquiring powerful generation capabilities. In this report, we present InternVL-U, a lightweight 4B-parameter UMM that democratizes these capabilities within a unified framework. Guided by the principles of unified contextual modeling and modality-specific modular design with decoupled visual representations, InternVL-U integrates a state-of-the-art Multimodal Large Language Model (MLLM) with a specialized MMDiT-based visual generation head. To further bridge the gap between aesthetic generation and high-level intelligence, we construct a comprehensive data synthesis pipeline targeting high-semantic-density tasks, such as text rendering and scientific reasoning, under a reasoning-centric paradigm that leverages Chain-of-Thought (CoT) to better align abstract user intent with fine-grained visual generation details. Extensive experiments demonstrate that InternVL-U achieves a superior performance - efficiency balance. Despite using only 4B parameters, it consistently outperforms unified baseline models with over 3x larger scales such as BAGEL (14B) on various generation and editing tasks, while retaining strong multimodal understanding and reasoning capabilities.