CAT: Content-Adaptive Image Tokenization

📄 arXiv: 2501.03120v1 📥 PDF

作者: Junhong Shen, Kushal Tirumala, Michihiro Yasunaga, Ishan Misra, Luke Zettlemoyer, Lili Yu, Chunting Zhou

分类: cs.CV

发布日期: 2025-01-06


💡 一句话要点

提出内容自适应图像Token化方法CAT,提升图像重建和生成效果。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 内容自适应 图像Token化 图像生成 扩散模型 Transformer 图像重建 大型语言模型

📋 核心要点

  1. 现有图像Token化方法忽略了图像复杂度的差异,导致表示效率低下。
  2. CAT根据图像内容动态调整Token数量,对简单图像使用更少的Token。
  3. 实验表明,CAT在图像重建和生成任务中,性能优于固定比例的基线方法。

📝 摘要(中文)

现有图像Token化方法通常将图像编码为固定数量的Token或图像块,忽略了图像复杂度的内在差异。为了解决这个问题,我们提出了内容自适应Token化器(CAT),它可以根据图像内容动态调整表示能力,并将简单的图像编码为更少的Token。我们设计了一个基于字幕的评估系统,该系统利用大型语言模型(LLM)来预测内容复杂度,并确定给定图像的最佳压缩率,同时考虑对人类感知至关重要的因素。CAT在具有不同压缩率的图像上进行训练,在图像重建方面表现出强大的性能。我们还利用其可变长度的潜在表示来训练用于ImageNet生成的扩散Transformer(DiT)。通过优化Token分配,CAT在相同的FLOPs下训练,提高了FID分数,并且将推理吞吐量提高了18.5%。

🔬 方法详解

问题定义:现有图像Token化方法,如ViT,通常将图像分割成固定数量的patch,然后将这些patch转换为token。这种固定数量的token分配方式忽略了图像内容的复杂性差异。对于简单的图像,使用过多的token会造成冗余计算;而对于复杂的图像,token数量不足则会限制模型的表达能力。因此,如何根据图像内容自适应地调整token数量是一个关键问题。

核心思路:CAT的核心思路是根据图像的内容复杂度动态地调整token的数量。对于内容简单的图像,使用较少的token进行表示;对于内容复杂的图像,则使用较多的token进行表示。这种自适应的token化方式可以更有效地利用计算资源,提高模型的表达能力。CAT通过一个可学习的token选择模块来实现这一目标。

技术框架:CAT的整体框架包括以下几个主要模块:1) 图像编码器:将输入图像编码成一个特征表示。2) 内容复杂度预测器:预测图像的内容复杂度。3) Token选择模块:根据内容复杂度预测结果,动态地选择token的数量。4) Token解码器:将选择的token解码回图像。在训练阶段,CAT使用一个基于字幕的评估系统来确定给定图像的最佳压缩率。

关键创新:CAT的关键创新在于提出了内容自适应的token化方法。与传统的固定token数量的token化方法相比,CAT可以根据图像内容动态地调整token数量,从而更有效地利用计算资源,提高模型的表达能力。此外,CAT还设计了一个基于字幕的评估系统,用于确定给定图像的最佳压缩率。

关键设计:CAT的关键设计包括:1) 内容复杂度预测器的设计:使用大型语言模型(LLM)来预测图像的内容复杂度。2) Token选择模块的设计:使用一个可学习的门控机制来选择token的数量。3) 损失函数的设计:使用图像重建损失和内容复杂度预测损失来训练模型。具体来说,内容复杂度预测器使用预训练的CLIP模型提取图像特征,然后使用一个MLP来预测图像的复杂度得分。Token选择模块使用Gumbel-Softmax技巧实现可微的token选择。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

CAT在ImageNet生成任务中,通过优化token分配,在相同的FLOPs下训练,FID分数优于固定比例的基线方法,并且将推理吞吐量提高了18.5%。这表明CAT能够有效地利用计算资源,提高模型的性能和效率。

🎯 应用场景

CAT具有广泛的应用前景,例如:图像压缩、图像检索、图像生成、视频理解等。通过自适应地调整token数量,CAT可以更有效地表示图像和视频内容,从而提高相关任务的性能。此外,CAT还可以应用于移动设备等计算资源受限的场景,通过减少token数量来降低计算成本。

📄 摘要(原文)

Most existing image tokenizers encode images into a fixed number of tokens or patches, overlooking the inherent variability in image complexity. To address this, we introduce Content-Adaptive Tokenizer (CAT), which dynamically adjusts representation capacity based on the image content and encodes simpler images into fewer tokens. We design a caption-based evaluation system that leverages large language models (LLMs) to predict content complexity and determine the optimal compression ratio for a given image, taking into account factors critical to human perception. Trained on images with diverse compression ratios, CAT demonstrates robust performance in image reconstruction. We also utilize its variable-length latent representations to train Diffusion Transformers (DiTs) for ImageNet generation. By optimizing token allocation, CAT improves the FID score over fixed-ratio baselines trained with the same flops and boosts the inference throughput by 18.5%.