Vision Foundation Models as Generalist Tokenizers for Image Generation

作者: Anlin Zheng, Qi Han, Xin Wen, Chuofan Ma, Lanxi Gong, Gang Yu, Xiangyu Zhang, Xiaojuan Qi

分类: cs.CV

发布日期: 2026-05-18

备注: 4 figures and 14 tables

💡 一句话要点

提出VFMTok，一种基于视觉基础模型的通用图像Tokenizer，显著提升图像生成质量和效率。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱四：生成式动作 (Generative Motion) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 图像生成 视觉基础模型 Tokenizer 自回归模型 去噪模型 区域自适应量化 语义重建 对比学习

📋 核心要点

现有图像生成模型Tokenizer存在空间冗余，且难以保持语义保真度，限制了生成质量和效率。
VFMTok利用冻结的视觉基础模型作为编码器，通过区域自适应量化和语义重建目标，构建高效且语义保真的Tokenizer。
实验表明，VFMTok在离散和连续生成任务上均取得SOTA结果，显著提升生成质量和效率，并支持无分类器引导的快速推理。

📝 摘要（中文）

本文探索了一个构建通用图像Tokenizer的新方向，该Tokenizer直接基于冻结的视觉基础模型（VFM）。为了构建这个Tokenizer，我们利用冻结的VFM作为编码器，并引入了两项关键创新：(1) 区域自适应量化框架，以消除标准2D网格特征中的空间冗余；(2) 语义重建目标，使解码后的输出与VFM的表示对齐，以保持语义保真度。基于这些设计，我们提出了VFMTok，一种能够在离散和连续潜在空间中无缝运行的通用视觉Tokenizer。VFMTok在显著提高合成质量的同时，大幅提高了Token效率。对于离散自回归（AR）生成，它将模型收敛速度提高了3倍，并在ImageNet类条件合成上实现了最先进的gFID为1.36。类似地，对于连续空间生成，将VFMTok与去噪模型集成可产生出色的gFID为1.25。此外，由于潜在空间固有地捕获了丰富的空间语义，因此VFMTok能够在两种生成范例中实现无需分类器引导（w/o CFG）的高保真类条件合成，从而显著加快了推理速度。除了这些显著的经验结果之外，我们还系统地研究了我们方法的潜在机制。我们发现，VFM预训练期间使用的特定自监督学习目标决定了其作为Tokenizer的有效性。具体而言，通过全局对比学习和潜在掩码图像建模联合优化的VFM为图像Tokenization提供了最佳表示。这些见解为未来图像Tokenizer的设计奠定了坚实的基础，并提供了宝贵的指导。

🔬 方法详解

问题定义：现有的图像生成模型，特别是基于Transformer的模型，通常需要将图像转换为离散的token序列或连续的潜在表示。传统的图像Tokenizer（如VQ-VAE）在处理高分辨率图像时会产生大量的token，导致计算成本高昂，且容易丢失图像的细节信息。此外，这些Tokenizer往往缺乏对图像语义信息的有效编码，使得生成模型难以生成高质量的图像。因此，如何设计一种高效且语义保真的图像Tokenizer是当前图像生成领域的一个重要挑战。

核心思路：VFMTok的核心思路是利用预训练的视觉基础模型（VFM）强大的特征提取能力，并在此基础上进行优化，使其能够生成更紧凑、更具语义信息的图像token。具体来说，VFMTok通过区域自适应量化来减少空间冗余，并使用语义重建目标来保持语义保真度。这种设计使得VFMTok能够在保证图像质量的前提下，显著减少token的数量，从而提高生成效率。

技术框架：VFMTok的整体框架包括三个主要部分：(1) 冻结的视觉基础模型（VFM）编码器，用于提取图像的特征表示；(2) 区域自适应量化模块，用于将VFM的特征表示转换为离散或连续的token；(3) 解码器，用于将token重建为图像。在训练过程中，VFM的参数保持不变，只训练区域自适应量化模块和解码器。通过语义重建目标，使得解码后的图像能够尽可能地保留VFM提取的语义信息。

关键创新：VFMTok的关键创新在于以下两点：(1) 区域自适应量化：传统的量化方法通常采用固定的网格结构，忽略了图像中不同区域的信息密度差异。VFMTok通过自适应地调整量化区域的大小，从而减少空间冗余，提高token效率。(2) 语义重建目标：VFMTok使用VFM的特征表示作为监督信号，通过最小化解码后的图像与VFM特征之间的差异，来保持语义保真度。这种方法避免了直接使用像素级别的重建损失，从而更好地保留了图像的语义信息。

关键设计：在区域自适应量化方面，论文采用了一种基于注意力机制的方法来确定每个区域的大小。具体来说，首先计算VFM特征图中每个位置的注意力权重，然后根据注意力权重自适应地调整量化区域的大小。在语义重建目标方面，论文采用了对比学习的方法，通过最大化解码后的图像与原始图像在VFM特征空间中的相似度，来保持语义保真度。此外，论文还发现，使用全局对比学习和潜在掩码图像建模联合优化的VFM能够提供更好的特征表示，从而提高VFMTok的性能。

🖼️ 关键图片

📊 实验亮点

VFMTok在ImageNet类条件图像生成任务上取得了显著的成果。在离散自回归生成方面，VFMTok将模型收敛速度提高了3倍，并实现了SOTA的gFID为1.36。在连续空间生成方面，VFMTok与去噪模型集成后，实现了出色的gFID为1.25。更重要的是，VFMTok能够在两种生成范例中实现无需分类器引导（w/o CFG）的高保真类条件合成，从而显著加快了推理速度。

🎯 应用场景

VFMTok作为一种通用的图像Tokenizer，可以广泛应用于各种图像生成任务，例如文本到图像生成、图像修复、图像编辑等。其高效的token表示和语义保真能力，有助于提高生成图像的质量和效率。此外，VFMTok还可以应用于图像压缩、图像检索等领域，具有广泛的应用前景。

📄 摘要（原文）

In this work, we explore the largely unexplored direction of building a generalist image tokenizer directly on top of a frozen vision foundation model (VFM). To build this tokenizer, we utilize a frozen VFM as the encoder and introduce two key innovations: (1) a region-adaptive quantization framework to eliminate spatial redundancy in standard 2D grid features, and (2) a semantic reconstruction objective that aligns the decoded outputs with the VFM's representations to preserve semantic fidelity. Grounded in these designs, we propose VFMTok, a generalist visual tokenizer capable of operating seamlessly in both discrete and continuous latent spaces. VFMTok achieves substantial improvements in synthesis quality while drastically enhancing token efficiency. For discrete autoregressive (AR) generation, it accelerates model convergence by \textbf{3 times} and achieves a state-of-the-art gFID of \textbf{1.36} on ImageNet class-conditional synthesis. Similarly, for continuous-space generation, integrating VFMTok with a denoising model yields an exceptional gFID of \textbf{1.25}. Furthermore, because the latent space inherently captures rich spatial semantics, VFMTok enables high-fidelity class-conditional synthesis without classifier-free guidance (\textbf{w/o CFG}) across both generative paradigms, significantly accelerating inference speed. Beyond these remarkable empirical results, we systematically investigate the underlying mechanisms of our approach. We discover that the specific self-supervised learning objectives utilized during VFM pre-training dictate its effectiveness as a tokenizer. Specifically, a VFM jointly optimized with global contrastive learning and latent masked image modeling provides the optimal representations for image tokenization. These insights establish a strong foundation and offer valuable guidance for the design of future image tokenizers.

Vision Foundation Models as Generalist Tokenizers for Image Generation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理