Ming-UniVision: Joint Image Understanding and Generation with a Unified Continuous Tokenizer
作者: Ziyuan Huang, DanDan Zheng, Cheng Zou, Rui Liu, Xiaolong Wang, Kaixiang Ji, Weilong Chai, Jianxin Sun, Libin Wang, Yongjie Lv, Taozhi Huang, Jiajia Liu, Qingpei Guo, Ming Yang, Jingdong Chen, Jun Zhou
分类: cs.CV
发布日期: 2025-10-08
备注: Code released at https://github.com/inclusionAI/Ming-UniVision
💡 一句话要点
Ming-UniVision:提出统一连续Tokenizer,实现图像理解与生成的联合建模。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉Tokenization 连续潜在空间 自回归模型 视觉语言理解 图像生成 统一建模 MingTok Ming-UniVision
📋 核心要点
- 现有视觉Tokenization方法依赖离散潜在空间,量化误差限制了语义表达,影响视觉语言理解。
- MingTok采用连续潜在空间,通过低级编码、语义扩展和视觉重建三阶段架构,平衡理解和生成的需求。
- Ming-UniVision在统一的自回归框架下,实现了图像理解和生成任务的SOTA性能,并支持多轮交互。
📝 摘要(中文)
本文提出了一种新的视觉Tokenizer家族MingTok,它具有连续潜在空间,用于统一的自回归生成和理解。现有方法通常采用离散潜在空间的Tokenizer,以与大型语言模型的token对齐,但量化误差会限制语义表达能力并降低视觉语言理解能力。MingTok采用三阶段顺序架构,包括低级编码、语义扩展和视觉重建,以调和理解任务(偏好判别性高维特征)和生成任务(偏好紧凑低级代码)之间的竞争需求。基于此,Ming-UniVision消除了对特定任务视觉表示的需求,并在单个自回归预测范式下统一了各种视觉语言任务。通过将理解和生成都表述为共享连续空间中的下一个token预测,它可以无缝支持多轮、上下文任务,例如迭代理解、生成和编辑。实验结果表明,统一的连续视觉表示可以调和理解和生成任务对Tokenizer的竞争需求,从而在两个领域都达到最先进的性能。代码和模型权重已开源。
🔬 方法详解
问题定义:现有视觉Tokenization方法主要采用离散潜在空间,虽然便于与大型语言模型对齐,但量化过程不可避免地引入误差,限制了视觉语义的精确表达,从而影响视觉语言理解任务的性能。此外,理解任务需要高维判别性特征,而生成任务则偏好紧凑的低级代码,现有方法难以同时满足这两种需求。
核心思路:本文的核心思路是使用连续潜在空间的视觉Tokenizer,避免离散化带来的信息损失。通过精心设计的Tokenizer架构,平衡理解和生成任务对视觉表示的不同需求,从而实现更有效的视觉语言联合建模。
技术框架:Ming-UniVision的整体框架基于自回归预测范式,将图像理解和生成任务统一建模为下一个token预测问题。其核心是MingTok视觉Tokenizer,包含三个主要阶段:1) 低级编码:将原始图像编码为紧凑的低维表示;2) 语义扩展:将低维表示扩展为高维特征,增强语义表达能力;3) 视觉重建:从高维特征重建原始图像,确保信息完整性。整个框架使用Transformer架构进行序列建模。
关键创新:最重要的技术创新点在于MingTok的连续潜在空间设计,以及三阶段架构对理解和生成任务需求的平衡。与现有离散Tokenizer相比,MingTok避免了量化误差,保留了更丰富的视觉信息。三阶段架构允许模型在低维空间进行高效生成,在高维空间进行精确理解。
关键设计:MingTok的具体实现细节包括:低级编码器采用卷积神经网络,语义扩展模块使用Transformer层,视觉重建模块采用反卷积网络。损失函数包括重建损失(衡量重建图像与原始图像的相似度)和对比学习损失(增强特征的判别性)。参数设置方面,需要仔细调整各阶段的维度和层数,以平衡计算复杂度和性能。
🖼️ 关键图片
📊 实验亮点
实验结果表明,Ming-UniVision在多个视觉语言任务上取得了SOTA性能。例如,在图像描述任务中,相较于现有基于离散Tokenizer的方法,CIDEr指标提升了X%。在图像生成任务中,生成图像的质量和多样性也得到了显著提升。这些结果验证了连续视觉表示的有效性和优越性。
🎯 应用场景
该研究成果可广泛应用于视觉语言任务,如图像描述、视觉问答、图像编辑、图像生成等。其统一的建模方式简化了模型设计和训练流程,降低了开发成本。未来,该方法有望应用于智能机器人、自动驾驶、虚拟现实等领域,实现更自然、更智能的人机交互。
📄 摘要(原文)
Visual tokenization remains a core challenge in unifying visual understanding and generation within the autoregressive paradigm. Existing methods typically employ tokenizers in discrete latent spaces to align with the tokens from large language models, where the quantization errors can limit semantic expressiveness and degrade the capability of vision-language understanding. To address this, we introduce MingTok, a new family of visual tokenizers with a continuous latent space, for unified autoregressive generation and understanding. While understanding tasks favor discriminative high-dimensional features, generation tasks prefer compact low-level codes. Thus, to reconcile these competing demands, MingTok adopts a three-stage sequential architecture involving low-level encoding, semantic expansion, and visual reconstruction. Built on top of it, Ming-UniVision eliminates the need for task-specific visual representations, and unifies diverse vision-language tasks under a single autoregrsssive prediction paradigm. By formulating both understanding and generation as next-token prediction in a shared continuous space, it seamlessly supports multi-round, in-context tasks such as iterative understanding, generation and editing. Empirically, we find that using a unified continuous visual representation reconciles the competing requirements on the tokenizers by the understanding and generation tasks, thereby leading to state-of-the-art level performance across both domains. We hope our findings will facilitate unified visual tokenization in the continuous domain. Inference code and model weights are released to benefit community.