SVD-Prune: Training-Free Token Pruning For Efficient Vision-Language Models

📄 arXiv: 2604.11530v1 📥 PDF

作者: Yvon Apedo, Martyna Poreba, Michal Szczepanski, Samia Bouchafa

分类: cs.CV, cs.AI

发布日期: 2026-04-13


💡 一句话要点

提出SVD-Prune,一种免训练的视觉-语言模型token剪枝方法,提升效率。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言模型 Token剪枝 奇异值分解 模型压缩 免训练 多模态学习

📋 核心要点

  1. 现有VLM模型处理长视觉token序列时,计算和内存需求高,局部启发式剪枝方法存在位置偏差和信息分散问题。
  2. SVD-Prune基于奇异值分解,通过统计杠杆分数选择对全局方差贡献最大的token,实现高效剪枝。
  3. 实验表明,SVD-Prune在极端token预算下优于现有方法,即使在极低token数量下也能保持良好性能。

📝 摘要(中文)

视觉-语言模型(VLM)通过联合处理视觉和文本信息,彻底改变了多模态学习。然而,由于处理长视觉token序列带来的高计算和内存需求,它们面临着严峻的挑战。许多现有方法依赖于局部启发式方法,例如注意力分数或token范数。但是,这些标准存在位置偏差和信息分散的问题,限制了它们在高剪枝率下保留关键内容的能力,并导致视觉细节丰富的图像性能下降。为了解决这些问题,我们提出SVD-Prune,一种基于奇异值分解的免训练、即插即用的token剪枝方法。它分解视觉token特征矩阵,并使用统计杠杆分数选择前K个token,确保只保留对主要全局方差贡献最大的token。实验表明,SVD-Prune在极端的视觉token预算下始终优于先前的剪枝方法,即使使用32和16个视觉token也能保持强大的性能。

🔬 方法详解

问题定义:视觉-语言模型在处理视觉信息时,需要处理大量的视觉tokens,这导致了巨大的计算和内存开销。现有的token剪枝方法,例如基于注意力分数或token范数的方法,往往依赖于局部信息,容易受到位置偏差的影响,并且在高剪枝率下难以保留关键信息,导致性能下降。

核心思路:SVD-Prune的核心思路是利用奇异值分解(SVD)来分析视觉token特征矩阵的全局结构,并通过统计杠杆分数来衡量每个token对整体方差的贡献。选择贡献最大的token进行保留,从而在全局层面上保留最重要的信息。这种方法避免了局部启发式方法的局限性,能够更有效地进行token剪枝。

技术框架:SVD-Prune是一个即插即用的模块,可以嵌入到现有的视觉-语言模型中。其主要流程如下:1. 获取视觉token的特征矩阵。2. 对特征矩阵进行奇异值分解。3. 计算每个token的统计杠杆分数。4. 根据杠杆分数选择前K个token进行保留,其余token被剪枝。5. 将保留的token输入到后续的视觉-语言模型中进行处理。

关键创新:SVD-Prune的关键创新在于使用奇异值分解和统计杠杆分数来进行token剪枝。与现有的局部启发式方法不同,SVD-Prune能够从全局的角度分析token的重要性,从而更有效地保留关键信息。此外,SVD-Prune是一种免训练的方法,不需要额外的训练数据或计算资源。

关键设计:SVD-Prune的关键设计在于统计杠杆分数的计算方式。统计杠杆分数反映了每个token对特征矩阵的奇异向量的贡献程度。具体来说,对于一个特征矩阵X = UΣV^T,其中U是左奇异向量矩阵,Σ是奇异值矩阵,V是右奇异向量矩阵,第i个token的统计杠杆分数可以计算为U的第i行的平方和。选择前K个具有最高杠杆分数的token进行保留。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,SVD-Prune在极端的视觉token预算下始终优于先前的剪枝方法。例如,在某些任务上,即使只保留32或16个视觉token,SVD-Prune也能保持与使用完整token序列相近的性能。与基于注意力分数的剪枝方法相比,SVD-Prune在低token数量下能够显著提高性能。

🎯 应用场景

SVD-Prune可应用于各种需要处理大量视觉信息的视觉-语言模型,例如图像描述、视觉问答、视觉推理等。通过减少计算和内存需求,SVD-Prune可以使这些模型更易于部署在资源受限的设备上,并提高其处理速度。此外,SVD-Prune还可以用于提高模型的鲁棒性,使其能够更好地处理噪声和干扰。

📄 摘要(原文)

Vision-Language Models (VLM) have revolutionized multimodal learning by jointly processing visual and textual information. Yet, they face significant challenges due to the high computational and memory demands of processing long sequences of vision tokens. Many existing methods rely on local heuristics, such as attention scores or token norms. However, these criteria suffer from positional bias and information dispersion, limiting their ability to preserve essential content at high pruning ratios and leading to performance degradation on visually detailed images. To address these issues, we propose SVD-Prune, a trainingfree, plug-and-play token pruning method based on Singular Value Decomposition. It decomposes the vision token feature matrix and selects the top-K tokens using statistical leverage scores, ensuring only tokens contributing most to the dominant global variance are preserved. Experiments show that SVD-Prune consistently outperforms prior pruning methods under extreme vision token budgets, maintaining strong performance even with 32 and 16 vision tokens.