DualToken: Towards Unifying Visual Understanding and Generation with Dual Visual Vocabularies
作者: Wei Song, Yuran Wang, Zijia Song, Yadong Li, Haoze Sun, Weipeng Chen, Zenan Zhou, Jianhua Xu, Jiaqi Wang, Kaicheng Yu
分类: cs.CV, cs.CL
发布日期: 2025-03-18 (更新: 2025-03-19)
💡 一句话要点
DualToken:利用双视觉词汇统一视觉理解与生成
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉理解 视觉生成 双视觉词汇表 多模态学习 自回归模型
📋 核心要点
- 现有视觉理解和生成模型需要不同的表征空间,难以在大型语言模型的自回归框架下统一。
- DualToken通过引入高低层特征的独立码本,解耦语义和感知信息,从而统一视觉理解和生成。
- 实验表明,DualToken在重建和语义任务中均达到SOTA,并在MLLM下游任务中表现出色。
📝 摘要(中文)
大型语言模型的自回归范式在统一视觉理解和生成方面面临挑战,因为它们需要不同的表征空间。为重建而训练的视觉标记器擅长捕捉低层次的感知细节,非常适合视觉生成,但缺乏用于理解任务的高层次语义表征。相反,通过对比学习训练的视觉编码器与语言对齐良好,但难以解码回像素空间以进行生成任务。为了弥合这一差距,我们提出了DualToken,一种在单个标记器中统一理解和生成表征的方法。然而,在单个标记器中直接整合重建和语义目标会产生冲突,导致重建质量和语义性能下降。DualToken没有强迫单个码本处理语义和感知信息,而是通过为高层和低层特征引入单独的码本来解耦它们,有效地将它们固有的冲突转化为协同关系。因此,DualToken在重建和语义任务中都实现了最先进的性能,同时在下游MLLM理解和生成任务中表现出卓越的有效性。值得注意的是,我们还表明,DualToken作为一个统一的标记器,超越了两种不同类型视觉编码器的简单组合,在统一的MLLM中提供了卓越的性能。
🔬 方法详解
问题定义:现有方法难以在统一的框架下兼顾视觉理解和生成任务。用于生成的视觉Tokenizer擅长重建图像,但缺乏高层语义信息;用于理解的视觉Encoder与语言对齐较好,但难以解码回像素空间。直接将二者简单结合会导致性能下降。
核心思路:DualToken的核心思想是解耦视觉表征中的语义信息和感知信息,分别用不同的码本进行编码。通过这种方式,避免了单一码本同时处理高低层信息造成的冲突,并将二者之间的冲突转化为协同关系。
技术框架:DualToken包含两个主要的视觉词汇表(码本):一个用于高层语义特征,另一个用于低层感知细节。输入图像首先经过一个共享的视觉编码器提取特征,然后分别使用两个码本进行量化。在训练过程中,模型同时优化重建损失(保证生成质量)和语义损失(保证理解能力)。最终,模型输出两个token序列,分别代表图像的语义信息和感知信息。
关键创新:DualToken的关键创新在于提出了双视觉词汇表(Dual Visual Vocabularies)的概念,将视觉表征解耦为语义和感知两个部分,并分别进行编码。这种解耦的方式有效避免了单一码本的冲突,提升了模型在视觉理解和生成任务中的性能。
关键设计:DualToken的具体实现细节包括:使用VQ-VAE架构进行码本学习;采用对比学习损失来对齐语义码本与语言表征;使用重建损失来保证感知码本的生成质量;通过实验确定合适的码本大小和训练策略。
🖼️ 关键图片
📊 实验亮点
DualToken在图像重建和语义任务中均取得了SOTA性能。在下游MLLM任务中,DualToken超越了简单组合两种不同类型视觉编码器的方案,证明了其作为统一Tokenizer的优越性。具体性能数据未知,但论文强调了其在多个任务上的显著提升。
🎯 应用场景
DualToken具有广泛的应用前景,例如多模态对话、图像编辑、视频生成等。它可以作为多模态大语言模型(MLLM)的视觉编码器,提升模型在视觉理解和生成方面的能力。此外,DualToken还可以应用于图像检索、视觉问答等任务,具有重要的实际价值和未来影响。
📄 摘要(原文)
The differing representation spaces required for visual understanding and generation pose a challenge in unifying them within the autoregressive paradigm of large language models. A vision tokenizer trained for reconstruction excels at capturing low-level perceptual details, making it well-suited for visual generation but lacking high-level semantic representations for understanding tasks. Conversely, a vision encoder trained via contrastive learning aligns well with language but struggles to decode back into the pixel space for generation tasks. To bridge this gap, we propose DualToken, a method that unifies representations for both understanding and generation within a single tokenizer. However, directly integrating reconstruction and semantic objectives in a single tokenizer creates conflicts, leading to degraded performance in both reconstruction quality and semantic performance. Instead of forcing a single codebook to handle both semantic and perceptual information, DualToken disentangles them by introducing separate codebooks for high and low-level features, effectively transforming their inherent conflict into a synergistic relationship. As a result, DualToken achieves state-of-the-art performance in both reconstruction and semantic tasks while demonstrating remarkable effectiveness in downstream MLLM understanding and generation tasks. Notably, we also show that DualToken, as a unified tokenizer, surpasses the naive combination of two distinct types vision encoders, providing superior performance within a unified MLLM.