EvoTok: A Unified Image Tokenizer via Residual Latent Evolution for Visual Understanding and Generation

📄 arXiv: 2603.12108v1 📥 PDF

作者: Yan Li, Ning Liao, Xiangyu Zhao, Shaofeng Zhang, Xiaoxing Wang, Yifan Yang, Junchi Yan, Xue Yang

分类: cs.CV

发布日期: 2026-03-12


💡 一句话要点

EvoTok:通过残差潜在演化统一图像Tokenizer,促进视觉理解与生成

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 图像Tokenizer 残差向量量化 视觉理解 图像生成 多模态学习

📋 核心要点

  1. 现有统一多模态模型难以兼顾视觉理解所需的高层语义抽象和图像生成所需的细粒度像素级表示。
  2. EvoTok通过残差向量量化将图像编码为残差token序列,形成演化轨迹,低层捕获细节,高层过渡到语义。
  3. EvoTok在ImageNet-1K上实现了0.43 rFID的重建质量,并在多个视觉理解和生成基准测试中表现出色。

📝 摘要(中文)

统一多模态大语言模型(MLLM)的发展面临视觉理解和生成之间粒度差异的根本挑战:理解需要高层语义抽象,而图像生成需要细粒度的像素级表示。现有方法通常在同一组表示上强制执行这两种监督,或在单独的特征空间上解耦这两种监督,分别导致干扰和不一致。本文提出EvoTok,一种统一的图像tokenizer,通过共享潜在空间内的残差演化过程来调和这些需求。EvoTok没有为像素和语义维护单独的token空间,而是通过残差向量量化将图像编码为级联的残差token序列。该残差序列形成一个演化轨迹,其中早期阶段捕获低级细节,而更深阶段逐渐过渡到高层语义表示。尽管EvoTok在相对适中的1300万图像数据集上进行训练,远小于许多先前统一tokenizer使用的数十亿规模数据集,但EvoTok在256x256分辨率的ImageNet-1K上实现了0.43 rFID的强大重建质量。当与大型语言模型集成时,EvoTok在9个视觉理解基准测试中的7个上显示出良好的性能,并在GenEval和GenAI-Bench等图像生成基准测试中取得了显著成果。这些结果表明,将视觉表示建模为演化轨迹为统一视觉理解和生成提供了一种有效且有原则的解决方案。

🔬 方法详解

问题定义:现有统一多模态模型在处理视觉理解和图像生成任务时,面临着视觉粒度不一致的问题。视觉理解需要高层语义抽象,而图像生成需要细粒度的像素级表示。现有方法要么在同一特征空间上同时进行两种监督,导致相互干扰;要么在不同的特征空间上进行解耦,导致不一致性。这些方法都无法有效地统一视觉理解和生成任务。

核心思路:EvoTok的核心思路是将图像编码为一个残差token序列,该序列代表了一个从低级细节到高级语义的演化轨迹。通过残差向量量化,图像被逐步分解为一系列残差token,每个token捕捉不同层次的信息。这种演化轨迹允许模型在早期阶段关注像素级别的细节,而在后期阶段关注语义级别的抽象,从而有效地统一了视觉理解和生成的需求。

技术框架:EvoTok的整体框架包括一个编码器,用于将图像编码为残差token序列;一个码本,用于存储量化的向量;以及一个解码器,用于从残差token序列重建图像。编码器逐步提取图像的特征,并使用残差向量量化将特征量化为残差token。解码器则按照相反的顺序,逐步将残差token解码为图像。整个过程形成一个演化轨迹,其中每个阶段都捕捉不同层次的信息。

关键创新:EvoTok最重要的创新点在于其残差演化过程。与现有方法不同,EvoTok没有使用单独的token空间来表示像素和语义信息,而是使用一个共享的潜在空间,并通过残差向量量化将图像编码为一个演化轨迹。这种方法允许模型在不同的阶段关注不同层次的信息,从而有效地统一了视觉理解和生成的需求。

关键设计:EvoTok的关键设计包括残差向量量化的具体实现、编码器和解码器的网络结构、以及损失函数的设计。残差向量量化使用多层量化器,逐步将图像特征量化为残差token。编码器和解码器使用卷积神经网络,以提取图像的特征并重建图像。损失函数包括重建损失和量化损失,以保证图像的重建质量和token的有效性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

EvoTok在ImageNet-1K数据集上实现了0.43 rFID的重建质量,显著优于许多现有的图像Tokenizer。此外,EvoTok在多个视觉理解基准测试中表现出色,并在GenEval和GenAI-Bench等图像生成基准测试中取得了显著成果。这些结果表明,EvoTok能够有效地统一视觉理解和生成任务,并具有强大的性能。

🎯 应用场景

EvoTok作为一种统一的图像Tokenizer,具有广泛的应用前景。它可以应用于多模态大语言模型,提升模型在视觉理解和图像生成任务上的性能。此外,EvoTok还可以应用于图像编辑、图像修复、图像压缩等领域,具有重要的实际价值和未来影响。

📄 摘要(原文)

The development of unified multimodal large language models (MLLMs) is fundamentally challenged by the granularity gap between visual understanding and generation: understanding requires high-level semantic abstractions, while image generation demands fine-grained pixel-level representations. Existing approaches usually enforce the two supervision on the same set of representation or decouple these two supervision on separate feature spaces, leading to interference and inconsistency, respectively. In this work, we propose EvoTok, a unified image tokenizer that reconciles these requirements through a residual evolution process within a shared latent space. Instead of maintaining separate token spaces for pixels and semantics, EvoTok encodes an image into a cascaded sequence of residual tokens via residual vector quantization. This residual sequence forms an evolution trajectory where earlier stages capture low-level details and deeper stages progressively transition toward high-level semantic representations. Despite being trained on a relatively modest dataset of 13M images, far smaller than the billion-scale datasets used by many previous unified tokenizers, EvoTok achieves a strong reconstruction quality of 0.43 rFID on ImageNet-1K at 256x256 resolution. When integrated with a large language model, EvoTok shows promising performance across 7 out of 9 visual understanding benchmarks, and remarkable results on image generation benchmarks such as GenEval and GenAI-Bench. These results demonstrate that modeling visual representations as an evolving trajectory provides an effective and principled solution for unifying visual understanding and generation.