Skip-Vision: Efficient and Scalable Acceleration of Vision-Language Models via Adaptive Token Skipping
作者: Weili Zeng, Ziyuan Huang, Kaixiang Ji, Yichao Yan
分类: cs.CV
发布日期: 2025-03-26 (更新: 2025-07-03)
备注: Accepted by ICCV2025
💡 一句话要点
Skip-Vision:通过自适应Token跳过加速视觉-语言模型,提升效率与可扩展性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉-语言模型 Token跳过 模型加速 Transformer 多模态学习
📋 核心要点
- 多模态大语言模型计算成本高昂,尤其是在处理高分辨率图像时,视觉tokens数量庞大是主要瓶颈。
- Skip-Vision通过Skip-FFN和选择性KV-cache移除两种策略,在训练和推理阶段自适应地跳过冗余视觉tokens。
- 实验表明,Skip-Vision在保证性能的同时,显著降低了训练时间、推理FLOPs和延迟,提升了模型效率。
📝 摘要(中文)
基于Transformer的模型极大地推动了多模态大语言模型(MLLM)的发展,但当分辨率、训练数据和模型参数扩展时,其计算成本急剧上升。一个关键瓶颈是用于细粒度图像理解所需的大量视觉tokens。我们提出了Skip-Vision,一个统一的框架,解决了视觉-语言模型中训练和推理的低效率问题。在传统的token压缩方法的基础上,我们的方法引入了两种互补的加速策略。对于训练加速,我们观察到视觉tokens上的前馈网络(FFN)计算引起的特征更新很小。这促使我们采用Skip-FFN策略,该策略绕过冗余视觉tokens的FFN层。对于推理加速,我们设计了一种选择性的KV-cache移除机制,该机制在解码期间修剪跳过的键值对,同时保持模型性能。实验结果表明,Skip-Vision将训练时间减少高达35%,推理FLOPs减少75%,延迟减少45%,同时实现了与现有方法相当或更高的性能。我们的工作为扩展具有增强效率的高性能MLLM提供了一种实用的解决方案。
🔬 方法详解
问题定义:现有视觉-语言模型在处理高分辨率图像时,需要处理大量的视觉tokens,导致计算成本显著增加,训练和推理效率低下。传统的token压缩方法虽然可以减少tokens数量,但仍然存在冗余计算,并且可能影响模型性能。因此,如何高效地处理视觉tokens,在保证模型性能的同时,降低计算成本,是当前视觉-语言模型面临的重要挑战。
核心思路:Skip-Vision的核心思路是自适应地跳过冗余的视觉tokens,从而减少不必要的计算。该方法基于观察:并非所有视觉tokens都对最终的预测结果有同等重要的贡献,部分tokens可能包含冗余信息,对其进行计算带来的特征更新很小。因此,Skip-Vision通过学习一个token重要性评估机制,动态地决定哪些tokens需要进行计算,哪些可以跳过。
技术框架:Skip-Vision包含两个主要的加速策略:Skip-FFN和选择性KV-cache移除。Skip-FFN用于训练加速,它在Transformer的FFN层之前,根据token的重要性评估结果,跳过不重要的tokens的FFN计算。选择性KV-cache移除用于推理加速,它在解码过程中,移除与跳过的tokens相关的key-value pairs,从而减少KV-cache的大小和计算量。这两个策略相互补充,共同提升了视觉-语言模型的效率。
关键创新:Skip-Vision的关键创新在于提出了一种自适应的token跳过机制,该机制可以根据token的重要性动态地决定是否进行计算。与传统的token压缩方法相比,Skip-Vision更加灵活,可以根据不同的输入图像和模型状态,自适应地调整跳过的tokens数量。此外,Skip-Vision还设计了一种选择性的KV-cache移除机制,进一步提升了推理效率。
关键设计:Skip-FFN的关键设计在于token重要性评估模块,该模块通过学习一个二元分类器,预测每个token的重要性。该分类器的输入是token的特征向量,输出是token是否需要进行FFN计算的概率。选择性KV-cache移除的关键设计在于如何保证在移除KV-cache的同时,不影响模型性能。Skip-Vision通过一种masking机制,将跳过的tokens的注意力权重设置为零,从而保证模型可以正确地处理剩余的tokens。
🖼️ 关键图片
📊 实验亮点
Skip-Vision在多个视觉-语言任务上进行了实验,结果表明,该方法可以在保证模型性能的同时,显著降低计算成本。例如,在训练阶段,Skip-Vision可以将训练时间减少高达35%;在推理阶段,Skip-Vision可以将推理FLOPs减少75%,延迟减少45%。此外,Skip-Vision在部分任务上甚至取得了比现有方法更好的性能。
🎯 应用场景
Skip-Vision可应用于各种需要处理高分辨率图像的视觉-语言任务,如图像描述、视觉问答、视觉推理等。该方法可以显著降低这些任务的计算成本,使其能够在资源受限的设备上运行,并加速模型的训练和部署。此外,Skip-Vision还可以应用于其他基于Transformer的模型,如自然语言处理模型,以提升其效率。
📄 摘要(原文)
Transformer-based models have driven significant advancements in Multimodal Large Language Models (MLLMs), yet their computational costs surge drastically when scaling resolution, training data, and model parameters. A key bottleneck stems from the proliferation of visual tokens required for fine-grained image understanding. We propose Skip-Vision, a unified framework addressing both training and inference inefficiencies in vision-language models. On top of conventional token compression approaches, our method introduces two complementary acceleration strategies. For training acceleration, we observe that Feed-Forward Network (FFN) computations on visual tokens induce marginal feature updates. This motivates our Skip-FFN strategy, which bypasses FFN layers for redundant visual tokens. For inference acceleration, we design a selective KV-cache removal mechanism that prunes the skipped key-value pairs during decoding while preserving model performance. Experimental results demonstrate that Skip-Vision reduces training time by up to 35\%, inference FLOPs by 75\%, and latency by 45\%, while achieving comparable or superior performance to existing methods. Our work provides a practical solution for scaling high-performance MLLMs with enhanced efficiency.