DeCo: Decoupling Token Compression from Semantic Abstraction in Multimodal Large Language Models

📄 arXiv: 2405.20985v1 📥 PDF

作者: Linli Yao, Lei Li, Shuhuai Ren, Lean Wang, Yuanxin Liu, Xu Sun, Lu Hou

分类: cs.CV

发布日期: 2024-05-31


💡 一句话要点

DeCo:解耦多模态大语言模型中的Token压缩与语义抽象,提升视觉语言对齐效果。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 视觉语言对齐 视觉投影器 语义抽象 Token压缩

📋 核心要点

  1. 现有MLLM依赖压缩型投影器进行视觉语义对齐,但存在双重抽象问题,导致训练效率低且语义信息损失。
  2. DeCo的核心思想是将视觉token压缩与语义抽象解耦,利用简单压缩器减少token数量,让LLM负责语义理解。
  3. 实验表明,DeCo在多个MLLM基准测试中超越传统压缩投影器,参数更少,收敛更快,性能显著提升。

📝 摘要(中文)

视觉投影器是多模态大语言模型(MLLM)中连接视觉和语言模态、促进跨模态对齐的关键组件。然而,目前对投影器在视觉-语言对齐中的有效性的评估尚不充分,只能通过MLLM在下游任务上的表现来推断。本文通过解释MLLM内部的视觉-语言语义流来研究投影器模块。具体来说,我们追溯从生成的语言token到原始视觉编码器patch以及投影器产生的中间输出的语义相关性流。研究发现,压缩型投影器(如QFormer)将视觉patch抽象成有限的语义概念集,导致“双重抽象”现象。这包括投影器基于预定义的查询token进行第一次视觉语义抽象,以及LLM基于文本指令进行第二次提取。双重抽象降低了训练效率,并导致累积的视觉语义缺失。为了解决这个问题,我们提出了“解耦压缩与抽象(DeCo)”的关键思想,即通过投影器在patch级别压缩视觉token数量,并允许LLM完全处理视觉语义抽象。因此,我们采用一种简单的压缩器,即2D自适应池化,以无参数的方式对视觉patch进行下采样。实验评估表明,DeCo在性能和效率方面都优于传统的压缩型投影器。在MLLM Benchmarks、Visual Localization和Open-ended VQA任务中,DeCo以更少的训练参数和更快的收敛速度实现了0.9%、7.1%和2.9%的性能提升。

🔬 方法详解

问题定义:现有的多模态大语言模型(MLLM)在处理视觉信息时,通常使用视觉投影器将视觉特征转换为语言模型可以理解的token。然而,一些常用的投影器,例如Q-Former,会进行视觉语义的压缩和抽象,导致信息损失和训练效率降低。这种“双重抽象”问题,即投影器先进行一次抽象,LLM再进行一次抽象,是现有方法的痛点。

核心思路:DeCo的核心思路是将视觉token的压缩与语义抽象这两个过程解耦。具体来说,DeCo不再让投影器负责复杂的语义抽象,而是专注于减少视觉token的数量,将语义理解的任务完全交给LLM。这样可以避免信息在投影器中的过度压缩和抽象,保留更多的原始视觉信息。

技术框架:DeCo的整体框架仍然是标准的MLLM架构,包括视觉编码器、视觉投影器和语言模型。关键在于视觉投影器的设计。DeCo使用一个简单的2D自适应平均池化层作为视觉压缩器,该层没有可学习的参数,仅负责降低视觉特征图的分辨率,从而减少token的数量。压缩后的视觉token被送入LLM进行后续的语义理解和生成任务。

关键创新:DeCo最重要的技术创新在于解耦了视觉token压缩和语义抽象。与传统的压缩型投影器(如Q-Former)相比,DeCo避免了在投影器中进行复杂的语义抽象,从而减少了信息损失和计算负担。这种解耦的设计使得LLM能够更好地利用原始视觉信息,提升了模型的整体性能。

关键设计:DeCo的关键设计在于使用2D自适应平均池化层作为视觉压缩器。该池化层根据输入特征图的大小自动调整池化窗口的大小,从而将视觉token的数量减少到预定义的数量。由于该池化层没有可学习的参数,因此不需要额外的训练,并且可以有效地降低计算成本。此外,DeCo没有引入任何新的损失函数或网络结构,而是直接替换了原有的压缩型投影器。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,DeCo在多个MLLM基准测试中取得了显著的性能提升。例如,在MLLM Benchmarks上,DeCo的性能提升了0.9%;在Visual Localization任务上,DeCo的性能提升了7.1%;在Open-ended VQA任务上,DeCo的性能提升了2.9%。此外,DeCo还减少了训练参数,加快了收敛速度,证明了其在性能和效率方面的优势。

🎯 应用场景

DeCo的潜在应用领域包括图像描述、视觉问答、视觉定位等。通过提升MLLM的视觉理解能力,DeCo可以应用于智能客服、自动驾驶、医疗影像分析等领域,具有重要的实际价值。未来,DeCo的解耦思想可以推广到其他模态,例如音频和视频,从而构建更强大的多模态智能系统。

📄 摘要(原文)

The visual projector, which bridges the vision and language modalities and facilitates cross-modal alignment, serves as a crucial component in MLLMs. However, measuring the effectiveness of projectors in vision-language alignment remains under-explored, which currently can only be inferred from the performance of MLLMs on downstream tasks. Motivated by the problem, this study examines the projector module by interpreting the vision-language semantic flow within MLLMs. Specifically, we trace back the semantic relevance flow from generated language tokens to raw visual encoder patches and the intermediate outputs produced by projectors. Our findings reveal that compressive projectors (e.g., QFormer), abstract visual patches into a limited set of semantic concepts, such as objects or attributes, resulting in a 'double abstraction' phenomenon. This involves a first visual semantic abstraction by the projector referring to pre-defined query tokens, and a second extraction by the LLM based on text instructions. The double abstraction is inefficient in training and will result in cumulative vision semantics deficiency. To mitigate this issue, we propose the key insight of 'Decouple Compression from Abstraction (DeCo), that is compressing the visual token number at the patch level by projectors and allowing the LLM to handle visual semantic abstraction entirely. Consequently, we adopt a simple compressor, i.e., 2D Adaptive Pooling, to downsample visual patches in a parameter-free manner. Empirical evaluation demonstrates that DeCo surpasses traditional compressive projectors regarding both performance and efficiency. It achieves performance gains of 0.9%, 7.1%, and 2.9% across the MLLM Benchmarks, Visual Localization, and Open-ended VQA tasks with fewer trainable parameters and faster convergence speed.