InternVL-X: Advancing and Accelerating InternVL Series with Efficient Visual Token Compression

📄 arXiv: 2503.21307v1 📥 PDF

作者: Dongchen Lu, Yuyao Sun, Zilu Zhang, Leping Huang, Jianliang Zeng, Mao Shu, Huo Cao

分类: cs.CV, cs.AI

发布日期: 2025-03-27


💡 一句话要点

InternVL-X:通过高效视觉Token压缩提升InternVL系列模型的性能与效率

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 视觉Token压缩 视觉-语言投影 分层Token压缩 高分辨率图像处理

📋 核心要点

  1. 多模态大语言模型处理大量视觉token导致计算资源需求和时间成本显著增加,成为性能瓶颈。
  2. InternVL-X通过PVTC、LVTC和RVTC三种视觉token压缩方法,在保证性能的同时显著降低计算成本。
  3. 实验结果表明,InternVL-X使用更少的视觉token,在多个MLLM基准测试中取得了state-of-the-art的性能,平均指标提升显著。

📝 摘要(中文)

本文提出了InternVL-X,通过整合三种视觉token压缩方法,在性能和效率上均优于InternVL模型。首先,提出了一种新颖的视觉-语言投影器PVTC,它整合相邻的视觉嵌入形成局部查询,并利用转换后的CLS token作为全局查询,然后通过这些局部和全局查询执行点到区域的交叉注意力,从而更有效地转换视觉特征。其次,提出了一种分层视觉token压缩模块LVTC,该模块在LLM浅层压缩token,然后在更深层通过上采样和残差连接扩展它们,从而显著提高模型计算效率。此外,提出了一种高效的高分辨率切片方法RVTC,该方法根据图像面积或长度过滤动态调整视觉token的数量。RVTC在性能略有下降的情况下极大地提高了训练效率。通过使用20%或更少的视觉token,InternVL-X在7个公共MLLM基准测试中实现了最先进的性能,并在12个任务中将平均指标提高了2.34%。

🔬 方法详解

问题定义:多模态大语言模型(MLLM)通常将视觉信息转换为一系列视觉token,并将其与文本token一起输入到大型语言模型(LLM)中。然而,大量的视觉token会显著增加计算资源的需求和处理时间,成为提升模型性能和效率的瓶颈。现有方法在处理高分辨率图像时,token数量庞大,计算成本高昂。

核心思路:InternVL-X的核心思路是通过视觉token压缩来减少输入LLM的视觉token数量,从而降低计算成本并提高效率。具体而言,它采用了三种不同的token压缩方法:PVTC(点到区域的视觉-语言投影器)、LVTC(分层视觉token压缩)和RVTC(高效高分辨率切片)。这些方法旨在在尽可能保留关键视觉信息的前提下,减少token数量。

技术框架:InternVL-X的整体框架是在现有的MLLM基础上,引入了视觉token压缩模块。首先,图像经过视觉编码器(如ViT)提取特征。然后,PVTC模块将视觉特征投影到与语言模型对齐的嵌入空间。接下来,LVTC模块在LLM的浅层压缩token,并在深层进行上采样和残差连接以恢复信息。最后,RVTC模块根据图像的尺寸动态调整token的数量。压缩后的视觉token与文本token一起输入到LLM中进行处理。

关键创新:InternVL-X的关键创新在于三种视觉token压缩方法的组合和设计。PVTC通过点到区域的交叉注意力,更有效地转换视觉特征。LVTC通过分层压缩和上采样,在计算效率和信息保留之间取得平衡。RVTC通过动态调整token数量,提高了处理不同尺寸图像的效率。这些方法共同作用,使得InternVL-X能够在减少计算成本的同时,保持甚至提高性能。

关键设计:PVTC的关键设计在于使用局部和全局查询进行交叉注意力。局部查询由相邻视觉嵌入组成,全局查询由转换后的CLS token组成。LVTC的关键设计在于在浅层进行压缩,并在深层进行上采样和残差连接。RVTC的关键设计在于根据图像面积或长度过滤动态调整视觉token的数量。具体的参数设置和网络结构细节在论文中进行了详细描述,例如PVTC中query和key的维度,LVTC中压缩和上采样的比例,以及RVTC中面积和长度的阈值。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

InternVL-X通过使用20%或更少的视觉token,在7个公共MLLM基准测试中实现了state-of-the-art的性能,并在12个任务中将平均指标提高了2.34%。这表明该方法在显著降低计算成本的同时,能够有效提升模型性能。与InternVL相比,InternVL-X在多个任务上取得了显著的性能提升,证明了视觉token压缩方法的有效性。

🎯 应用场景

InternVL-X在多模态理解领域具有广泛的应用前景,例如图像描述、视觉问答、视觉推理等。该研究可以应用于自动驾驶、智能客服、医疗影像分析等领域,提高相关系统的效率和准确性。通过降低计算成本,InternVL-X使得在资源受限的设备上部署复杂的MLLM成为可能,促进了多模态人工智能技术的普及。

📄 摘要(原文)

Most multimodal large language models (MLLMs) treat visual tokens as "a sequence of text", integrating them with text tokens into a large language model (LLM). However, a great quantity of visual tokens significantly increases the demand for computational resources and time. In this paper, we propose InternVL-X, which outperforms the InternVL model in both performance and efficiency by incorporating three visual token compression methods. First, we propose a novel vision-language projector, PVTC. This component integrates adjacent visual embeddings to form a local query and utilizes the transformed CLS token as a global query, then performs point-to-region cross-attention through these local and global queries to more effectively convert visual features. Second, we present a layer-wise visual token compression module, LVTC, which compresses tokens in the LLM shallow layers and then expands them through upsampling and residual connections in the deeper layers. This significantly enhances the model computational efficiency. Futhermore, we propose an efficient high resolution slicing method, RVTC, which dynamically adjusts the number of visual tokens based on image area or length filtering. RVTC greatly enhances training efficiency with only a slight reduction in performance. By utilizing 20% or fewer visual tokens, InternVL-X achieves state-of-the-art performance on 7 public MLLM benchmarks, and improves the average metric by 2.34% across 12 tasks.