MANZANO: A Simple and Scalable Unified Multimodal Model with a Hybrid Vision Tokenizer

作者: Yanghao Li, Rui Qian, Bowen Pan, Haotian Zhang, Haoshuo Huang, Bowen Zhang, Jialing Tong, Haoxuan You, Xianzhi Du, Zhe Gan, Hyunjik Kim, Chao Jia, Zhenbang Wang, Yinfei Yang, Mingfei Gao, Zi-Yi Dou, Wenze Hu, Chang Gao, Dongxu Li, Philipp Dufter, Zirui Wang, Guoli Yin, Zhengdong Zhang, Chen Chen, Yang Zhao, Ruoming Pang, Zhifeng Chen

分类: cs.CV, cs.CL, cs.LG

发布日期: 2025-09-19

💡 一句话要点

Manzano：一种基于混合视觉Token的简单可扩展统一多模态模型

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 统一模型 图像理解 图像生成 混合Token 大型语言模型 视觉编码器

📋 核心要点

现有开源多模态LLM在视觉内容理解和生成能力上存在性能权衡，难以兼顾。
Manzano通过混合图像分词器和统一训练方案，在共享语义空间中实现图像理解和生成。
Manzano在统一模型中达到SOTA，并在文本丰富的评估中与专业模型竞争，验证了设计的有效性。

📝 摘要（中文）

统一多模态大型语言模型(LLM)在理解和生成视觉内容方面具有巨大潜力。然而，现有的开源模型通常在这两种能力之间存在性能权衡。我们提出了Manzano，一个简单且可扩展的统一框架，通过将混合图像分词器与精心设计的训练方案相结合，大大减少了这种紧张关系。一个共享的视觉编码器为两个轻量级适配器提供输入，这两个适配器生成连续嵌入用于图像到文本的理解，并生成离散token用于文本到图像的生成，所有这些都在一个共同的语义空间中。一个统一的自回归LLM以文本和图像token的形式预测高层语义，辅助扩散解码器随后将图像token转换为像素。该架构与理解和生成数据的统一训练方案相结合，实现了两种能力的可扩展联合学习。Manzano在统一模型中实现了最先进的结果，并且在文本丰富的评估中与专业模型相比具有竞争力。我们的研究表明，任务冲突最小，并且模型规模的扩大带来了持续的收益，从而验证了我们混合分词器的设计选择。

🔬 方法详解

问题定义：现有统一多模态LLM难以同时兼顾视觉内容的理解和生成能力，存在性能上的trade-off。开源模型在这方面表现尤为明显，限制了其在实际应用中的潜力。因此，需要一种能够有效平衡这两种能力的统一模型。

核心思路：Manzano的核心思路是使用一个混合视觉tokenizer，将图像信息编码成两种形式：连续嵌入（用于图像理解）和离散token（用于图像生成）。这两种形式的信息都位于一个共享的语义空间中，使得模型能够更好地理解和生成图像。

技术框架：Manzano的整体架构包含以下几个主要模块：1) 共享视觉编码器：用于提取图像的视觉特征。2) 两个轻量级适配器：分别将视觉特征转换为连续嵌入和离散token。3) 统一自回归LLM：用于预测文本和图像token形式的高层语义。4) 辅助扩散解码器：将图像token转换为像素，实现图像生成。

关键创新：Manzano的关键创新在于混合视觉tokenizer的设计，它允许模型同时利用连续和离散的图像表示。这种混合表示方式能够更好地捕捉图像的语义信息，从而提高模型在图像理解和生成任务上的性能。此外，统一的训练方案也保证了模型能够有效地学习这两种能力。

关键设计：Manzano的关键设计包括：1) 共享视觉编码器的选择，需要具有良好的视觉特征提取能力。2) 适配器的轻量化设计，避免引入过多的参数。3) 统一自回归LLM的选择，需要具有强大的文本和图像token预测能力。4) 辅助扩散解码器的设计，需要能够高质量地将图像token转换为像素。具体的参数设置、损失函数和网络结构等细节在论文中有详细描述。

🖼️ 关键图片

📊 实验亮点

Manzano在统一模型中取得了state-of-the-art的结果，尤其是在文本丰富的评估中，性能与专业模型相当。研究表明，Manzano的任务冲突最小，并且随着模型规模的扩大，性能持续提升，验证了混合tokenizer设计的有效性。具体的性能数据和对比基线在论文中有详细展示。

🎯 应用场景

Manzano具有广泛的应用前景，例如智能图像编辑、视觉故事生成、多模态对话系统等。该模型能够理解图像内容并生成相应的文本描述，或者根据文本描述生成图像，从而实现更自然、更智能的人机交互。此外，Manzano还可以应用于教育、娱乐、医疗等领域，为人们提供更便捷、更高效的服务。

📄 摘要（原文）

Unified multimodal Large Language Models (LLMs) that can both understand and generate visual content hold immense potential. However, existing open-source models often suffer from a performance trade-off between these capabilities. We present Manzano, a simple and scalable unified framework that substantially reduces this tension by coupling a hybrid image tokenizer with a well-curated training recipe. A single shared vision encoder feeds two lightweight adapters that produce continuous embeddings for image-to-text understanding and discrete tokens for text-to-image generation within a common semantic space. A unified autoregressive LLM predicts high-level semantics in the form of text and image tokens, with an auxiliary diffusion decoder subsequently translating the image tokens into pixels. The architecture, together with a unified training recipe over understanding and generation data, enables scalable joint learning of both capabilities. Manzano achieves state-of-the-art results among unified models, and is competitive with specialist models, particularly on text-rich evaluation. Our studies show minimal task conflicts and consistent gains from scaling model size, validating our design choice of a hybrid tokenizer.

MANZANO: A Simple and Scalable Unified Multimodal Model with a Hybrid Vision Tokenizer

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理