A More Word-like Image Tokenization for MLLMs

📄 arXiv: 2605.17954v1 📥 PDF

作者: Hyun Lee, Hyemin Jeong, Yejin Kim, Hyungwook Choi, Hyunsoo Cho, Soo Kyung Kim, Joonseok Lee

分类: cs.CV, cs.AI, cs.LG

发布日期: 2026-05-18

期刊: Proceedings of the IEEE/CVF International Conference on Pattern Recognition and Computer Vision (CVPR), 2026

🔗 代码/项目: GITHUB


💡 一句话要点

提出解耦视觉Token化方法DiVT,提升MLLM对图像语义理解能力并降低计算成本。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 视觉Token化 大型语言模型 图像理解 语义解耦 计算效率 自适应Token预算

📋 核心要点

  1. 现有MLLM视觉投影器将图像转化为连续且高度相关的嵌入,与LLM擅长处理的离散语义token不符。
  2. DiVT将图像patch嵌入聚类成语义单元,使每个token对应一个视觉概念,并根据图像复杂度调整token数量。
  3. 实验表明,DiVT在减少token数量的同时,匹配甚至超过了现有基线,降低了内存成本和延迟。

📝 摘要(中文)

现代多模态大型语言模型(MLLM)通常固定语言模型,并训练一个视觉投影器,将像素映射到其嵌入空间中的token序列,从而使图像能够以与文本基本相同的形式呈现。然而,语言模型已经过优化,以处理离散的、语义上有意义的token,而流行的视觉投影器将图像转换为连续且高度相关的嵌入长流。这导致视觉token的行为与LLM最初训练理解的类单词单元不同。我们提出了一种新的解耦视觉Token化(DiVT)方法,该方法将patch嵌入聚类成连贯的语义单元,因此每个token对应于一个不同的视觉概念,而不是一个刚性的网格单元。DiVT进一步使其token预算适应图像复杂度,提供显式的精度-计算权衡,既不修改视觉编码器也不修改语言模型。在各种多模态基准测试中,DiVT在显著更少的视觉token下匹配或超过了基线,证明了在有限的token预算下的鲁棒性,显著降低了内存成本和延迟,同时使视觉输入更兼容LLM。我们的代码可在https://github.com/snuviplab/DiVT获得。

🔬 方法详解

问题定义:现有MLLM模型在处理图像时,通常使用视觉投影器将图像转化为一系列连续且高度相关的嵌入向量,这些向量与语言模型所习惯的离散、语义化的token存在差异。这种差异导致视觉token与语言模型原本训练的“类单词”单元不一致,影响了模型的性能。现有方法缺乏对视觉token的语义解耦,且token数量固定,无法根据图像内容自适应调整,造成计算资源的浪费。

核心思路:DiVT的核心思路是将图像的patch嵌入聚类成具有语义一致性的单元,使得每个token代表一个独立的视觉概念,而不是简单的网格单元。通过这种方式,DiVT旨在使视觉token更接近语言模型所期望的“类单词”单元,从而提高MLLM的性能。此外,DiVT还根据图像的复杂度动态调整token的数量,以实现精度和计算成本之间的平衡。

技术框架:DiVT的整体框架包括以下几个主要步骤:1) 使用视觉编码器(如ViT)提取图像的patch嵌入;2) 使用聚类算法(如K-means)将patch嵌入聚类成不同的语义单元;3) 为每个语义单元分配一个token;4) 根据图像的复杂度动态调整token的数量。该框架不修改现有的视觉编码器或语言模型,而是作为一个独立的模块插入到MLLM中。

关键创新:DiVT的关键创新在于其解耦视觉token化的思想,即将图像分解成具有语义一致性的单元,并为每个单元分配一个token。这种方法与现有方法将图像分割成固定网格单元的方式截然不同,能够更好地捕捉图像的语义信息。此外,DiVT还能够根据图像的复杂度动态调整token的数量,从而实现精度和计算成本之间的平衡。

关键设计:DiVT的关键设计包括:1) 使用K-means算法进行聚类,并通过实验选择合适的聚类数量;2) 设计了一种自适应token预算机制,根据图像的信息熵或复杂度动态调整token的数量;3) 使用对比学习损失函数来优化聚类结果,使得相似的patch嵌入能够被聚类到同一个语义单元中。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DiVT在多个多模态基准测试中表现出色,在显著减少视觉token数量的情况下,性能匹配甚至超过了现有基线。例如,在视觉问答任务中,DiVT使用更少的token达到了与现有方法相当的精度,同时显著降低了内存成本和延迟。实验结果表明,DiVT在有限的token预算下具有很强的鲁棒性,能够有效地提高MLLM的性能。

🎯 应用场景

DiVT可应用于各种多模态大型语言模型,提升模型对图像的理解能力,并降低计算成本。例如,在图像描述、视觉问答、图像生成等任务中,DiVT可以帮助模型更准确地捕捉图像的语义信息,从而提高任务的性能。此外,DiVT还可以应用于资源受限的场景,如移动设备或嵌入式系统,通过减少token数量来降低内存消耗和计算延迟。

📄 摘要(原文)

Modern multimodal large language models (MLLMs) typically keep the language model fixed and train a visual projector that maps the pixels into a sequence of tokens in its embedding space, so that images can be presented in essentially the same form as text. However, the language model has been optimized to operate on discrete, semantically meaningful tokens, while prevailing visual projectors transform an image into a long stream of continuous and highly correlated embeddings. This causes the visual tokens to behave differently from the word-like units that LLMs are originally trained to understand. We propose a novel Disentangled Visual Tokenization (DiVT) that clusters patch embeddings into coherent semantic units, so each token corresponds to a distinct visual concept instead of a rigid grid cell. DiVT further adapts its token budget to image complexity, providing an explicit accuracy-compute trade-off modifying neither the vision encoder nor the language model. Across diverse multimodal benchmarks, DiVT matches or surpasses baselines with significantly fewer visual tokens, demonstrating robustness under limited token budgets, significantly reducing memory cost and latency while making visual inputs more compatible with LLMs. Our code is available at https://github.com/snuviplab/DiVT.