SparseVILA: Decoupling Visual Sparsity for Efficient VLM Inference
作者: Samir Khaki, Junxian Guo, Jiaming Tang, Shang Yang, Yukang Chen, Konstantinos N. Plataniotis, Yao Lu, Song Han, Zhijian Liu
分类: cs.CV
发布日期: 2025-10-20
💡 一句话要点
SparseVILA:解耦视觉稀疏性,加速高效VLM推理
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉语言模型 VLM推理加速 视觉稀疏性 剪枝 查询感知检索
📋 核心要点
- 现有VLM推理受限于视觉token数量过多,导致延迟高,扩展性受限。
- SparseVILA解耦预填充和解码阶段的视觉稀疏性,实现高效推理。
- SparseVILA在长视频任务上加速2.6倍,并提升文档理解和推理准确性。
📝 摘要(中文)
视觉语言模型(VLM)在集成视觉和文本推理方面取得了快速进展,为高分辨率图像理解、长视频分析和多轮对话等应用提供了动力。然而,视觉token数量的不断增长限制了它们的可扩展性,并主导了推理延迟。我们提出了SparseVILA,这是一种用于高效VLM推理的新范例,它将视觉稀疏性在预填充和解码阶段解耦。SparseVILA通过在预填充期间修剪冗余视觉token并在解码期间仅检索查询相关的token来分配稀疏性。这种解耦设计与领先的预填充修剪方法相匹配,同时通过保留大部分视觉缓存来保持多轮保真度,以便可以在每个对话轮次检索查询感知的token。SparseVILA建立在AWQ优化的推理管道之上,在长上下文视频任务上实现了高达4.0倍的预填充速度、2.5倍的解码速度以及2.6倍的端到端加速,同时提高了文档理解和推理任务的准确性。通过解耦与查询无关的修剪和与查询相关的检索,SparseVILA为高效多模态推理建立了一个新方向,提供了一个无需训练、架构无关的框架,用于加速大型VLM,而不会牺牲能力。
🔬 方法详解
问题定义:现有视觉语言模型(VLM)在处理高分辨率图像、长视频等任务时,需要处理大量的视觉tokens,这导致推理延迟显著增加,成为VLM扩展性的瓶颈。现有的方法要么直接减少视觉tokens的数量,要么采用知识蒸馏等方法,但这些方法往往会牺牲模型的精度或需要额外的训练。
核心思路:SparseVILA的核心思路是将视觉稀疏性处理解耦为两个阶段:预填充(prefill)阶段和解码(decoding)阶段。在预填充阶段,通过剪枝(pruning)去除冗余的、与查询无关的视觉tokens;在解码阶段,根据查询(query)检索与查询相关的视觉tokens。这种解耦的设计允许在预填充阶段大幅减少计算量,同时在解码阶段保留关键信息,从而提高推理效率和精度。
技术框架:SparseVILA的整体框架包含两个主要阶段:预填充阶段和解码阶段。在预填充阶段,输入图像经过视觉编码器后,使用剪枝算法去除冗余的视觉tokens,保留下来的tokens被缓存。在解码阶段,输入文本查询,并根据查询从缓存的视觉tokens中检索相关的tokens,然后将文本和检索到的视觉tokens输入到语言模型中进行推理。整个过程无需重新训练模型。
关键创新:SparseVILA的关键创新在于解耦了视觉稀疏性处理的两个阶段:与查询无关的剪枝和与查询相关的检索。这种解耦使得可以在预填充阶段大幅减少计算量,同时在解码阶段保留关键信息,从而在提高推理效率的同时,避免了精度损失。与现有方法相比,SparseVILA无需重新训练模型,且适用于各种VLM架构。
关键设计:SparseVILA的关键设计包括:1) 使用AWQ(激活量化权重)优化推理管道,进一步提高推理效率;2) 在预填充阶段采用剪枝算法,去除冗余的视觉tokens;3) 在解码阶段采用查询感知的检索算法,从缓存的视觉tokens中检索相关的tokens。具体的剪枝和检索算法的选择可以根据具体的任务和模型进行调整。论文中使用了特定的剪枝和检索策略,但SparseVILA框架本身是架构无关的,可以与其他剪枝和检索算法结合使用。
🖼️ 关键图片
📊 实验亮点
SparseVILA在长上下文视频任务上实现了高达4.0倍的预填充速度、2.5倍的解码速度以及2.6倍的端到端加速。同时,在文档理解和推理任务上,SparseVILA提高了准确性。这些结果表明,SparseVILA是一种高效且有效的VLM推理加速方法。
🎯 应用场景
SparseVILA具有广泛的应用前景,包括长视频理解、文档理解、多轮对话等领域。它可以加速VLM在资源受限设备上的部署,例如移动设备和边缘设备。此外,SparseVILA还可以应用于需要实时响应的场景,例如智能客服和自动驾驶。
📄 摘要(原文)
Vision Language Models (VLMs) have rapidly advanced in integrating visual and textual reasoning, powering applications across high-resolution image understanding, long-video analysis, and multi-turn conversation. However, their scalability remains limited by the growing number of visual tokens that dominate inference latency. We present SparseVILA, a new paradigm for efficient VLM inference that decouples visual sparsity across the prefilling and decoding stages. SparseVILA distributes sparsity across stages by pruning redundant visual tokens during prefill and retrieving only query-relevant tokens during decoding. This decoupled design matches leading prefill pruning methods while preserving multi-turn fidelity by retaining most of the visual cache so that query-aware tokens can be retrieved at each conversation round. Built on an AWQ-optimized inference pipeline, SparseVILA achieves up to 4.0 times faster prefilling, 2.5 times faster decoding, and an overall 2.6 times end-to-end speedup on long-context video tasks -- while improving accuracy on document-understanding and reasoning tasks. By decoupling query-agnostic pruning and query-aware retrieval, SparseVILA establishes a new direction for efficient multimodal inference, offering a training-free, architecture-agnostic framework for accelerating large VLMs without sacrificing capability.