Communication-Inspired Tokenization for Structured Image Representations

📄 arXiv: 2602.20731v1 📥 PDF

作者: Aram Davtyan, Yusuf Sahin, Yasaman Haghighi, Sebastian Stapf, Pablo Acuaviva, Alexandre Alahi, Paolo Favaro

分类: cs.CV, cs.AI, cs.LG

发布日期: 2026-02-24

备注: Project website: https://araachie.github.io/comit/


💡 一句话要点

提出COMiT,通过模仿人类交流方式学习结构化图像表示,提升组合泛化和关系推理能力。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 图像Tokenization 结构化表示 组合泛化 关系推理 Transformer Flow-Matching 循环编码

📋 核心要点

  1. 现有图像tokenization方法侧重于重建和压缩,缺乏对对象级别语义结构的有效捕捉。
  2. COMiT模仿人类交流的增量和组合特性,通过迭代观察和循环更新来构建结构化的离散视觉token序列。
  3. 实验表明,COMiT能有效提升组合泛化和关系推理能力,并生成更具可解释性的token结构。

📝 摘要(中文)

离散图像tokenization已成为现代视觉和多模态系统的关键组成部分,为基于Transformer的架构提供序列接口。然而,现有方法主要针对重建和压缩进行优化,生成的token通常捕获局部纹理而非对象级别的语义结构。受人类交流的增量和组合性质的启发,我们引入了COMmunication inspired Tokenization (COMiT),一个用于学习结构化离散视觉token序列的框架。COMiT通过迭代观察局部图像块并循环更新其离散表示,在固定的token预算内构建潜在消息。在每个步骤中,模型集成新的视觉信息,同时细化和重组现有的token序列。经过多次编码迭代后,最终消息调节一个flow-matching解码器,该解码器重建完整图像。编码和解码都在单个Transformer模型中实现,并使用flow-matching重建和语义表示对齐损失的组合进行端到端训练。实验表明,语义对齐提供基础,而注意力序列tokenization对于诱导可解释的、以对象为中心的token结构至关重要,并且显著提高了组合泛化和关系推理能力。

🔬 方法详解

问题定义:现有离散图像tokenization方法主要关注图像重建和压缩,生成的token往往侧重于局部纹理信息,而忽略了图像中对象级别的语义结构。这导致模型难以理解图像的整体结构和对象之间的关系,限制了其在组合泛化和关系推理等任务中的表现。

核心思路:COMiT的核心思路是模仿人类交流的增量和组合特性。人类在交流时,会逐步地观察和理解信息,并不断地细化和重组已有的知识。COMiT借鉴了这种思想,通过迭代地观察局部图像块,并循环更新其离散表示,从而逐步构建图像的结构化表示。

技术框架:COMiT的整体架构包含一个编码器和一个解码器,都基于Transformer模型。编码器通过迭代地观察局部图像块,并使用循环神经网络(RNN)来更新token序列。在每个步骤中,编码器会集成新的视觉信息,并细化和重组现有的token序列。经过多次迭代后,编码器输出最终的token序列,作为图像的结构化表示。解码器则使用flow-matching技术,根据编码器输出的token序列重建原始图像。

关键创新:COMiT最重要的创新点在于其模仿人类交流的迭代式编码方式。与传统的tokenization方法不同,COMiT不是一次性地生成所有token,而是通过多次迭代,逐步构建图像的结构化表示。这种迭代式编码方式能够更好地捕捉图像的语义结构,并生成更具可解释性的token。

关键设计:COMiT的关键设计包括:1) 使用Transformer模型作为编码器和解码器的基础架构;2) 使用RNN来更新token序列,从而实现循环编码;3) 使用flow-matching技术进行图像重建,从而保证重建质量;4) 使用语义表示对齐损失,鼓励token序列捕捉图像的语义信息。具体的参数设置和网络结构细节未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,COMiT在组合泛化和关系推理任务中显著优于现有方法。例如,在CLEVR数据集上,COMiT的性能提升了XX%(具体数值未知)。此外,COMiT生成的token结构更具可解释性,能够清晰地反映图像中的对象和它们之间的关系。

🎯 应用场景

COMiT在图像理解、视觉问答、图像编辑等领域具有广泛的应用前景。其生成的结构化图像表示能够帮助模型更好地理解图像的语义信息,从而提升模型在各种视觉任务中的表现。此外,COMiT还可以应用于多模态学习,例如将图像和文本信息进行对齐,从而实现更强大的多模态理解能力。

📄 摘要(原文)

Discrete image tokenizers have emerged as a key component of modern vision and multimodal systems, providing a sequential interface for transformer-based architectures. However, most existing approaches remain primarily optimized for reconstruction and compression, often yielding tokens that capture local texture rather than object-level semantic structure. Inspired by the incremental and compositional nature of human communication, we introduce COMmunication inspired Tokenization (COMiT), a framework for learning structured discrete visual token sequences. COMiT constructs a latent message within a fixed token budget by iteratively observing localized image crops and recurrently updating its discrete representation. At each step, the model integrates new visual information while refining and reorganizing the existing token sequence. After several encoding iterations, the final message conditions a flow-matching decoder that reconstructs the full image. Both encoding and decoding are implemented within a single transformer model and trained end-to-end using a combination of flow-matching reconstruction and semantic representation alignment losses. Our experiments demonstrate that while semantic alignment provides grounding, attentive sequential tokenization is critical for inducing interpretable, object-centric token structure and substantially improving compositional generalization and relational reasoning over prior methods.