METEOR: Multi-Encoder Collaborative Token Pruning for Efficient Vision Language Models
作者: Yuchen Liu, Yaoming Wang, Bowen Shi, Xiaopeng Zhang, Wenrui Dai, Chenglin Li, Hongkai Xiong, Qi Tian
分类: cs.CV
发布日期: 2025-07-28
备注: Accepted by ICCV 2025
🔗 代码/项目: GITHUB
💡 一句话要点
提出METEOR,通过多编码器协同Token剪枝提升视觉语言模型效率
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉语言模型 多编码器 Token剪枝 模型压缩 多模态学习
📋 核心要点
- 单编码器视觉语言模型泛化能力有限,多编码器模型计算开销大,难以兼顾性能与效率。
- METEOR通过多阶段token剪枝,在编码、融合和解码阶段逐步消除冗余视觉token,提升模型效率。
- 实验表明,METEOR在保持性能的同时,显著减少了视觉token数量,降低了计算成本。
📝 摘要(中文)
视觉编码器是多模态理解的基石。单编码器架构(如CLIP)在跨多种模态任务泛化方面存在固有局限性。最近的多编码器融合方法虽然利用来自多个视觉编码器的互补视觉表示实现了卓越性能,但也引入了过高的计算开销。为了解决这个问题,我们提出了一种渐进式剪枝框架,即多编码器协同Token剪枝(METEOR),它消除了多编码器MLLM在编码、融合和解码阶段的冗余视觉token。对于多视觉编码,我们通过排序引导的协同token分配策略来丢弃每个编码器内的冗余token。随后,对于多视觉融合,我们结合来自不同编码器的视觉特征,同时通过协同剪枝减少跨编码器的冗余。最后,我们在LLM解码阶段提出了一种自适应token剪枝方法,以根据文本提示进一步丢弃不相关的token,并动态调整特定任务需求的剪枝率。据我们所知,这是首次成功尝试实现基于多编码器的高效视觉语言模型,并采用多阶段剪枝策略。在11个基准测试上的大量实验证明了我们提出的方法的有效性。与典型的多编码器MLLM EAGLE 相比,METEOR 减少了 76% 的视觉token,平均性能仅下降 0.3%。
🔬 方法详解
问题定义:现有的视觉语言模型,特别是基于多编码器的模型,为了提升性能,往往引入了大量的计算开销。这些模型在处理视觉信息时,存在大量的冗余token,导致计算效率低下,难以部署到资源受限的设备上。因此,如何有效地减少视觉token的数量,同时保持模型的性能,是一个亟待解决的问题。
核心思路:METEOR的核心思路是通过多阶段的token剪枝,逐步消除视觉编码器、多编码器融合以及LLM解码阶段的冗余token。通过协同的token分配和剪枝策略,在保证关键信息不丢失的前提下,尽可能地减少计算量。这种渐进式的剪枝方法能够更好地适应不同阶段的需求,从而实现更高的效率。
技术框架:METEOR框架包含三个主要阶段:多视觉编码阶段、多视觉融合阶段和LLM解码阶段。在多视觉编码阶段,使用排序引导的协同token分配策略,对每个编码器内的token进行剪枝。在多视觉融合阶段,结合来自不同编码器的视觉特征,并使用协同剪枝减少跨编码器的冗余。在LLM解码阶段,根据文本提示,使用自适应token剪枝方法进一步丢弃不相关的token。
关键创新:METEOR的关键创新在于其多阶段协同剪枝策略。与传统的单阶段剪枝方法相比,METEOR能够更精细地控制token的数量,并根据不同阶段的需求进行调整。此外,METEOR还引入了排序引导的协同token分配策略和自适应token剪枝方法,进一步提升了剪枝的效率和准确性。
关键设计:在多视觉编码阶段,使用基于token重要性排序的剪枝策略,重要性通过梯度信息进行评估。在多视觉融合阶段,采用跨编码器的协同剪枝,避免不同编码器提取的相似特征造成的冗余。在LLM解码阶段,根据文本提示动态调整剪枝比例,确保模型能够关注与任务相关的视觉信息。具体的损失函数和网络结构细节在论文中进行了详细描述(未知)。
🖼️ 关键图片
📊 实验亮点
METEOR在11个基准测试上进行了广泛的实验,结果表明其有效性。与EAGLE相比,METEOR减少了76%的视觉token,而平均性能仅下降了0.3%。这一结果表明,METEOR能够在显著降低计算成本的同时,保持模型的性能。
🎯 应用场景
METEOR具有广泛的应用前景,可应用于图像描述、视觉问答、图像分类等多种视觉语言任务。通过降低计算成本,METEOR能够更容易地部署到移动设备、嵌入式系统等资源受限的平台上,实现更高效的AI应用。未来,该技术有望推动视觉语言模型在自动驾驶、智能家居、机器人等领域的应用。
📄 摘要(原文)
Vision encoders serve as the cornerstone of multimodal understanding. Single-encoder architectures like CLIP exhibit inherent constraints in generalizing across diverse multimodal tasks, while recent multi-encoder fusion methods introduce prohibitive computational overhead to achieve superior performance using complementary visual representations from multiple vision encoders. To address this, we propose a progressive pruning framework, namely Multi-Encoder collaboraTivE tOken pRuning (METEOR), that eliminates redundant visual tokens across the encoding, fusion, and decoding stages for multi-encoder MLLMs. For multi-vision encoding, we discard redundant tokens within each encoder via a rank guided collaborative token assignment strategy. Subsequently, for multi-vision fusion, we combine the visual features from different encoders while reducing cross-encoder redundancy with cooperative pruning. Finally, we propose an adaptive token pruning method in the LLM decoding stage to further discard irrelevant tokens based on the text prompts with dynamically adjusting pruning ratios for specific task demands. To our best knowledge, this is the first successful attempt that achieves an efficient multi-encoder based vision language model with multi-stage pruning strategies. Extensive experiments on 11 benchmarks demonstrate the effectiveness of our proposed approach. Compared with EAGLE, a typical multi-encoder MLLMs, METEOR reduces 76% visual tokens with only 0.3% performance drop in average. The code is available at https://github.com/YuchenLiu98/METEOR.