Skip-Vision: Efficient and Scalable Acceleration of Vision-Language Models via Adaptive Token Skipping

作者: Weili Zeng, Ziyuan Huang, Kaixiang Ji, Yichao Yan

分类: cs.CV

发布日期: 2025-03-26 (更新: 2025-07-03)

备注: Accepted by ICCV2025

💡 一句话要点

Skip-Vision：通过自适应Token跳过加速视觉-语言模型，提升效率与可扩展性

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言模型 Token跳过 模型加速 Transformer 多模态学习

📋 核心要点

多模态大语言模型计算成本高昂，尤其是在处理高分辨率图像时，视觉tokens数量庞大是主要瓶颈。
Skip-Vision通过Skip-FFN和选择性KV-cache移除两种策略，在训练和推理阶段自适应地跳过冗余视觉tokens。
实验表明，Skip-Vision在保证性能的同时，显著降低了训练时间、推理FLOPs和延迟，提升了模型效率。

📝 摘要（中文）

基于Transformer的模型极大地推动了多模态大语言模型（MLLM）的发展，但当分辨率、训练数据和模型参数扩展时，其计算成本急剧上升。一个关键瓶颈是用于细粒度图像理解所需的大量视觉tokens。我们提出了Skip-Vision，一个统一的框架，解决了视觉-语言模型中训练和推理的低效率问题。在传统的token压缩方法的基础上，我们的方法引入了两种互补的加速策略。对于训练加速，我们观察到视觉tokens上的前馈网络（FFN）计算引起的特征更新很小。这促使我们采用Skip-FFN策略，该策略绕过冗余视觉tokens的FFN层。对于推理加速，我们设计了一种选择性的KV-cache移除机制，该机制在解码期间修剪跳过的键值对，同时保持模型性能。实验结果表明，Skip-Vision将训练时间减少高达35％，推理FLOPs减少75％，延迟减少45％，同时实现了与现有方法相当或更高的性能。我们的工作为扩展具有增强效率的高性能MLLM提供了一种实用的解决方案。

🔬 方法详解

问题定义：现有视觉-语言模型在处理高分辨率图像时，需要处理大量的视觉tokens，导致计算成本显著增加，训练和推理效率低下。传统的token压缩方法虽然可以减少tokens数量，但仍然存在冗余计算，并且可能影响模型性能。因此，如何高效地处理视觉tokens，在保证模型性能的同时，降低计算成本，是当前视觉-语言模型面临的重要挑战。

核心思路：Skip-Vision的核心思路是自适应地跳过冗余的视觉tokens，从而减少不必要的计算。该方法基于观察：并非所有视觉tokens都对最终的预测结果有同等重要的贡献，部分tokens可能包含冗余信息，对其进行计算带来的特征更新很小。因此，Skip-Vision通过学习一个token重要性评估机制，动态地决定哪些tokens需要进行计算，哪些可以跳过。

技术框架：Skip-Vision包含两个主要的加速策略：Skip-FFN和选择性KV-cache移除。Skip-FFN用于训练加速，它在Transformer的FFN层之前，根据token的重要性评估结果，跳过不重要的tokens的FFN计算。选择性KV-cache移除用于推理加速，它在解码过程中，移除与跳过的tokens相关的key-value pairs，从而减少KV-cache的大小和计算量。这两个策略相互补充，共同提升了视觉-语言模型的效率。

关键创新：Skip-Vision的关键创新在于提出了一种自适应的token跳过机制，该机制可以根据token的重要性动态地决定是否进行计算。与传统的token压缩方法相比，Skip-Vision更加灵活，可以根据不同的输入图像和模型状态，自适应地调整跳过的tokens数量。此外，Skip-Vision还设计了一种选择性的KV-cache移除机制，进一步提升了推理效率。

关键设计：Skip-FFN的关键设计在于token重要性评估模块，该模块通过学习一个二元分类器，预测每个token的重要性。该分类器的输入是token的特征向量，输出是token是否需要进行FFN计算的概率。选择性KV-cache移除的关键设计在于如何保证在移除KV-cache的同时，不影响模型性能。Skip-Vision通过一种masking机制，将跳过的tokens的注意力权重设置为零，从而保证模型可以正确地处理剩余的tokens。

🖼️ 关键图片

📊 实验亮点

Skip-Vision在多个视觉-语言任务上进行了实验，结果表明，该方法可以在保证模型性能的同时，显著降低计算成本。例如，在训练阶段，Skip-Vision可以将训练时间减少高达35％；在推理阶段，Skip-Vision可以将推理FLOPs减少75％，延迟减少45％。此外，Skip-Vision在部分任务上甚至取得了比现有方法更好的性能。

🎯 应用场景

Skip-Vision可应用于各种需要处理高分辨率图像的视觉-语言任务，如图像描述、视觉问答、视觉推理等。该方法可以显著降低这些任务的计算成本，使其能够在资源受限的设备上运行，并加速模型的训练和部署。此外，Skip-Vision还可以应用于其他基于Transformer的模型，如自然语言处理模型，以提升其效率。

📄 摘要（原文）

Transformer-based models have driven significant advancements in Multimodal Large Language Models (MLLMs), yet their computational costs surge drastically when scaling resolution, training data, and model parameters. A key bottleneck stems from the proliferation of visual tokens required for fine-grained image understanding. We propose Skip-Vision, a unified framework addressing both training and inference inefficiencies in vision-language models. On top of conventional token compression approaches, our method introduces two complementary acceleration strategies. For training acceleration, we observe that Feed-Forward Network (FFN) computations on visual tokens induce marginal feature updates. This motivates our Skip-FFN strategy, which bypasses FFN layers for redundant visual tokens. For inference acceleration, we design a selective KV-cache removal mechanism that prunes the skipped key-value pairs during decoding while preserving model performance. Experimental results demonstrate that Skip-Vision reduces training time by up to 35\%, inference FLOPs by 75\%, and latency by 45\%, while achieving comparable or superior performance to existing methods. Our work provides a practical solution for scaling high-performance MLLMs with enhanced efficiency.

Skip-Vision: Efficient and Scalable Acceleration of Vision-Language Models via Adaptive Token Skipping

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理