VLM-Pruner: Buffering for Spatial Sparsity in an Efficient VLM Centrifugal Token Pruning Paradigm

📄 arXiv: 2512.02700 📥 PDF

作者: Zhenkai Wu, Xiaowen Ma, Zhenliang Ni, Dengming Zhang, Han Shu, Xin Jiang, Xinghao Chen

分类: cs.CV, cs.LG

发布日期: 2026-02-28


💡 一句话要点

VLM-Pruner:面向高效VLM的离心式Token剪枝与空间稀疏缓冲

🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting)

关键词: 视觉语言模型 Token剪枝 模型压缩 空间稀疏性 离心式剪枝

📋 核心要点

  1. 现有VLM剪枝方法忽略了token间的冗余和空间关系,导致计算资源浪费和目标对象覆盖不足。
  2. VLM-Pruner通过离心式剪枝范式和空间稀疏缓冲准则,显式平衡冗余和空间稀疏性。
  3. 实验结果表明,VLM-Pruner在保持性能的同时,显著提高了推理速度,剪枝率高达88.9%。

📝 摘要(中文)

视觉-语言模型(VLM)在图像理解任务中表现出色,但大量的视觉token带来了巨大的计算成本,阻碍了其在移动设备上的部署。许多剪枝方法仅依赖于token的重要性,忽略了token间的冗余,导致保留了大量重复的token,浪费了模型容量。虽然已经提出了一些感知冗余的方法,但它们通常忽略了视觉token之间的空间关系,导致保留的token过于稀疏,无法充分覆盖目标对象的区域。为了解决这些限制,我们提出VLM-Pruner,一种无需训练的token剪枝算法,它显式地平衡了冗余和空间稀疏性。我们引入了一种离心式token剪枝范式,实现了由近及远的token选择,同时优先保留细粒度的对象细节。此外,我们设计了一种空间稀疏缓冲(BSS)准则,推迟空间上距离较远的token的选择。我们进一步采用了一种并行贪婪策略来高效地进行token选择。为了减轻剪枝带来的信息损失,我们选择性地将丢弃的token中的显著信息融合到保留的token中。全面的比较表明,VLM-Pruner在五个VLM上始终优于强大的基线,剪枝率达到88.9%,同时实现了端到端的推理加速。

🔬 方法详解

问题定义:VLM在图像理解任务中表现出色,但其庞大的计算量限制了在移动设备上的部署。现有的token剪枝方法主要关注token的重要性,忽略了token之间的冗余和空间关系,导致剪枝后的token分布不均匀,无法充分覆盖目标对象,影响模型性能。

核心思路:VLM-Pruner的核心思路是在token剪枝过程中显式地平衡冗余性和空间稀疏性。通过离心式剪枝范式,优先保留靠近目标中心的token,并利用空间稀疏缓冲准则,避免选择过于集中的token,从而保证剪枝后的token能够更好地覆盖目标对象。

技术框架:VLM-Pruner主要包含以下几个阶段:1) 离心式token选择:从靠近目标中心的token开始选择,逐步向外扩展。2) 空间稀疏缓冲(BSS):延迟选择空间上距离较远的token,避免token过于集中。3) 并行贪婪策略:高效地进行token选择。4) 信息融合:将丢弃的token中的显著信息融合到保留的token中,减少信息损失。

关键创新:VLM-Pruner的关键创新在于:1) 离心式token剪枝范式:不同于以往的token重要性排序,该范式优先保留靠近目标中心的token,有利于保留细粒度的对象细节。2) 空间稀疏缓冲(BSS)准则:显式地考虑了token之间的空间关系,避免选择过于集中的token,保证剪枝后的token能够更好地覆盖目标对象。

关键设计:1) 离心率计算:通过计算每个token到图像中心的距离来确定其离心率,离心率越小,优先级越高。2) 空间稀疏缓冲阈值:根据token之间的距离动态调整缓冲阈值,避免选择过于接近的token。3) 信息融合策略:选择性地将丢弃的token中的显著信息(例如,注意力权重较高的token)融合到保留的token中。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

VLM-Pruner在五个不同的VLM模型上进行了验证,实验结果表明,该方法在保持甚至略微提升模型性能的同时,实现了高达88.9%的token剪枝率,并显著提高了端到端的推理速度。与现有的token剪枝方法相比,VLM-Pruner在多个图像理解任务上取得了更好的性能。

🎯 应用场景

VLM-Pruner可应用于各种需要轻量级VLM的场景,例如移动设备上的图像识别、智能监控、自动驾驶等。通过降低VLM的计算成本,可以使其更容易部署在资源受限的设备上,从而扩展VLM的应用范围,并提升用户体验。此外,该方法也可以用于加速VLM的训练和推理过程。

📄 摘要(原文)

Vision-language models (VLMs) excel at image understanding tasks, but the large number of visual tokens imposes significant computational costs, hindering deployment on mobile devices. Many pruning methods rely solely on token importance and thus overlook inter-token redundancy, retaining numerous duplicated tokens and wasting capacity. Although some redundancy-aware approaches have been proposed, they often ignore the spatial relationships among visual tokens. This can lead to overly sparse selections of retained tokens that fail to adequately cover the regions of target objects. To address these limitations, we propose VLM-Pruner, a training-free token pruning algorithm that explicitly balances redundancy and spatial sparsity. We introduce a centrifugal token pruning paradigm that enables near-to-far selection while prioritizing the preservation of fine-grained object details. Moreover, we design a Buffering for Spatial Sparsity (BSS) criterion that defers the selection of spatially distant tokens. We further adopt a parallel greedy strategy to conduct token selection efficiently. To mitigate information loss from pruning, we selectively fuse salient information from the discarded tokens into the retained ones. Comprehensive comparisons demonstrate that VLM-Pruner consistently outperforms strong baselines across five VLMs with an 88.9\% pruning rate, while delivering an end-to-end inference speedup. The code is available atthis https URL.