QLIP: Text-Aligned Visual Tokenization Unifies Auto-Regressive Multimodal Understanding and Generation

📄 arXiv: 2502.05178v1 📥 PDF

作者: Yue Zhao, Fuzhao Xue, Scott Reed, Linxi Fan, Yuke Zhu, Jan Kautz, Zhiding Yu, Philipp Krähenbühl, De-An Huang

分类: cs.CV

发布日期: 2025-02-07

备注: Tech report. Project page: https://nvlabs.github.io/QLIP/


💡 一句话要点

QLIP:文本对齐的视觉Token化统一了自回归多模态理解与生成

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉Token化 多模态理解 图像生成 自回归模型 语言-图像对齐

📋 核心要点

  1. 现有视觉Token化方法难以兼顾高质量图像重建和优秀的零样本图像理解能力,两者往往相互冲突。
  2. QLIP通过二元球形量化自编码器,结合重建和语言-图像对齐目标,动态平衡损失,实现了二者的统一。
  3. 实验表明,QLIP可作为LLaVA和LlamaGen的直接替代,性能相当甚至更好,并支持统一的混合模态自回归模型。

📝 摘要(中文)

本文提出了一种量化的语言-图像预训练方法(QLIP),该方法是一种视觉Token化方法,它将最先进的重建质量与最先进的零样本图像理解相结合。QLIP训练了一个基于二元球形量化的自编码器,具有重建和语言-图像对齐目标。我们首次证明了这两个目标不需要相互冲突。我们在训练过程中动态地平衡这两个损失项,并表明两阶段训练流程有效地混合了图像-语言预训练的大批量需求与重建目标带来的内存瓶颈。我们用一个单一模型验证了QLIP在多模态理解和文本条件图像生成方面的有效性。具体来说,QLIP可以作为LLaVA的视觉编码器和LlamaGen的图像Token器的直接替代品,并具有相当甚至更好的性能。最后,我们证明了QLIP能够实现用于理解和生成的统一混合模态自回归模型。

🔬 方法详解

问题定义:现有的视觉Token化方法通常难以同时达到高质量的图像重建和优秀的零样本图像理解能力。为了实现良好的图像重建,模型需要关注图像的细节信息,而为了实现好的零样本图像理解,模型需要学习图像的高层语义信息。这两个目标在训练过程中容易产生冲突,导致模型性能受限。

核心思路:QLIP的核心思路是通过联合优化图像重建和语言-图像对齐两个目标,从而使模型能够同时学习到图像的细节信息和高层语义信息。具体来说,QLIP使用一个基于二元球形量化的自编码器,该自编码器能够将图像编码成离散的Token序列,同时保留图像的细节信息。此外,QLIP还引入了一个语言-图像对齐目标,该目标能够使模型学习到图像和文本之间的对应关系,从而提高模型的零样本图像理解能力。

技术框架:QLIP的整体框架包括一个基于二元球形量化的自编码器和一个语言-图像对齐模块。自编码器负责将图像编码成离散的Token序列,并从Token序列中重建图像。语言-图像对齐模块负责学习图像和文本之间的对应关系。整个训练过程分为两个阶段:第一阶段,使用重建目标训练自编码器;第二阶段,使用重建目标和语言-图像对齐目标联合训练自编码器和语言-图像对齐模块。

关键创新:QLIP的关键创新在于它能够同时实现高质量的图像重建和优秀的零样本图像理解能力。这是通过联合优化图像重建和语言-图像对齐两个目标来实现的。此外,QLIP还提出了一个两阶段训练流程,该流程能够有效地混合图像-语言预训练的大批量需求与重建目标带来的内存瓶颈。

关键设计:QLIP的关键设计包括:1) 使用二元球形量化自编码器,该自编码器能够将图像编码成离散的Token序列,同时保留图像的细节信息;2) 引入语言-图像对齐目标,该目标能够使模型学习到图像和文本之间的对应关系;3) 采用两阶段训练流程,第一阶段使用重建目标训练自编码器,第二阶段使用重建目标和语言-图像对齐目标联合训练自编码器和语言-图像对齐模块;4) 动态平衡重建损失和语言-图像对齐损失,以避免两个目标之间的冲突。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,QLIP在多模态理解和文本条件图像生成方面表现出色。QLIP可以作为LLaVA的视觉编码器和LlamaGen的图像Token器的直接替代品,并具有相当甚至更好的性能。例如,在图像字幕任务中,QLIP的性能优于现有的视觉Token化方法。

🎯 应用场景

QLIP具有广泛的应用前景,包括多模态理解、文本条件图像生成、图像检索、视觉问答等。它可以作为视觉编码器的替代品,提升现有模型的性能。此外,QLIP还能够实现统一的混合模态自回归模型,为未来的多模态研究提供新的方向。

📄 摘要(原文)

We introduce Quantized Language-Image Pretraining (QLIP), a visual tokenization method that combines state-of-the-art reconstruction quality with state-of-the-art zero-shot image understanding. QLIP trains a binary-spherical-quantization-based autoencoder with reconstruction and language-image alignment objectives. We are the first to show that the two objectives do not need to be at odds. We balance the two loss terms dynamically during training and show that a two-stage training pipeline effectively mixes the large-batch requirements of image-language pre-training with the memory bottleneck imposed by the reconstruction objective. We validate the effectiveness of QLIP for multimodal understanding and text-conditioned image generation with a single model. Specifically, QLIP serves as a drop-in replacement for the visual encoder for LLaVA and the image tokenizer for LlamaGen with comparable or even better performance. Finally, we demonstrate that QLIP enables a unified mixed-modality auto-regressive model for understanding and generation.