DualToken: Towards Unifying Visual Understanding and Generation with Dual Visual Vocabularies

作者: Wei Song, Yuran Wang, Zijia Song, Yadong Li, Haoze Sun, Weipeng Chen, Zenan Zhou, Jianhua Xu, Jiaqi Wang, Kaicheng Yu

分类: cs.CV, cs.CL

发布日期: 2025-03-18 (更新: 2025-03-19)

💡 一句话要点

DualToken：利用双视觉词汇统一视觉理解与生成

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉理解 视觉生成 双视觉词汇表 多模态学习 自回归模型

📋 核心要点

现有视觉理解和生成模型需要不同的表征空间，难以在大型语言模型的自回归框架下统一。
DualToken通过引入高低层特征的独立码本，解耦语义和感知信息，从而统一视觉理解和生成。
实验表明，DualToken在重建和语义任务中均达到SOTA，并在MLLM下游任务中表现出色。

📝 摘要（中文）

大型语言模型的自回归范式在统一视觉理解和生成方面面临挑战，因为它们需要不同的表征空间。为重建而训练的视觉标记器擅长捕捉低层次的感知细节，非常适合视觉生成，但缺乏用于理解任务的高层次语义表征。相反，通过对比学习训练的视觉编码器与语言对齐良好，但难以解码回像素空间以进行生成任务。为了弥合这一差距，我们提出了DualToken，一种在单个标记器中统一理解和生成表征的方法。然而，在单个标记器中直接整合重建和语义目标会产生冲突，导致重建质量和语义性能下降。DualToken没有强迫单个码本处理语义和感知信息，而是通过为高层和低层特征引入单独的码本来解耦它们，有效地将它们固有的冲突转化为协同关系。因此，DualToken在重建和语义任务中都实现了最先进的性能，同时在下游MLLM理解和生成任务中表现出卓越的有效性。值得注意的是，我们还表明，DualToken作为一个统一的标记器，超越了两种不同类型视觉编码器的简单组合，在统一的MLLM中提供了卓越的性能。

🔬 方法详解

问题定义：现有方法难以在统一的框架下兼顾视觉理解和生成任务。用于生成的视觉Tokenizer擅长重建图像，但缺乏高层语义信息；用于理解的视觉Encoder与语言对齐较好，但难以解码回像素空间。直接将二者简单结合会导致性能下降。

核心思路：DualToken的核心思想是解耦视觉表征中的语义信息和感知信息，分别用不同的码本进行编码。通过这种方式，避免了单一码本同时处理高低层信息造成的冲突，并将二者之间的冲突转化为协同关系。

技术框架：DualToken包含两个主要的视觉词汇表（码本）：一个用于高层语义特征，另一个用于低层感知细节。输入图像首先经过一个共享的视觉编码器提取特征，然后分别使用两个码本进行量化。在训练过程中，模型同时优化重建损失（保证生成质量）和语义损失（保证理解能力）。最终，模型输出两个token序列，分别代表图像的语义信息和感知信息。

关键创新：DualToken的关键创新在于提出了双视觉词汇表（Dual Visual Vocabularies）的概念，将视觉表征解耦为语义和感知两个部分，并分别进行编码。这种解耦的方式有效避免了单一码本的冲突，提升了模型在视觉理解和生成任务中的性能。

关键设计：DualToken的具体实现细节包括：使用VQ-VAE架构进行码本学习；采用对比学习损失来对齐语义码本与语言表征；使用重建损失来保证感知码本的生成质量；通过实验确定合适的码本大小和训练策略。

🖼️ 关键图片

📊 实验亮点

DualToken在图像重建和语义任务中均取得了SOTA性能。在下游MLLM任务中，DualToken超越了简单组合两种不同类型视觉编码器的方案，证明了其作为统一Tokenizer的优越性。具体性能数据未知，但论文强调了其在多个任务上的显著提升。

🎯 应用场景

DualToken具有广泛的应用前景，例如多模态对话、图像编辑、视频生成等。它可以作为多模态大语言模型（MLLM）的视觉编码器，提升模型在视觉理解和生成方面的能力。此外，DualToken还可以应用于图像检索、视觉问答等任务，具有重要的实际价值和未来影响。

📄 摘要（原文）

The differing representation spaces required for visual understanding and generation pose a challenge in unifying them within the autoregressive paradigm of large language models. A vision tokenizer trained for reconstruction excels at capturing low-level perceptual details, making it well-suited for visual generation but lacking high-level semantic representations for understanding tasks. Conversely, a vision encoder trained via contrastive learning aligns well with language but struggles to decode back into the pixel space for generation tasks. To bridge this gap, we propose DualToken, a method that unifies representations for both understanding and generation within a single tokenizer. However, directly integrating reconstruction and semantic objectives in a single tokenizer creates conflicts, leading to degraded performance in both reconstruction quality and semantic performance. Instead of forcing a single codebook to handle both semantic and perceptual information, DualToken disentangles them by introducing separate codebooks for high and low-level features, effectively transforming their inherent conflict into a synergistic relationship. As a result, DualToken achieves state-of-the-art performance in both reconstruction and semantic tasks while demonstrating remarkable effectiveness in downstream MLLM understanding and generation tasks. Notably, we also show that DualToken, as a unified tokenizer, surpasses the naive combination of two distinct types vision encoders, providing superior performance within a unified MLLM.

DualToken: Towards Unifying Visual Understanding and Generation with Dual Visual Vocabularies

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理