LRCP: Low-Rank Compressibility Guided Visual Token Pruning for Efficient LVLMs

📄 arXiv: 2605.15621v1 📥 PDF

作者: Hongyu Lu, Feng Zhang, Wenwei Jin, Huanling Hu, Tianjun Shi, Shikai Jiang, Yao Hu, Jiawei Li

分类: cs.CV

发布日期: 2026-05-15

备注: The paper includes 11 figures, multiple tables, comprehensive experimental results on 11 image understanding benchmarks and 3 video benchmarks, with extensive ablation studies and qualitative visualizations


💡 一句话要点

LRCP:基于低秩可压缩性的高效LVLM视觉Token剪枝

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 Token剪枝 低秩压缩 主成分分析 模型效率 图像理解 视频理解

📋 核心要点

  1. 现有LVLM视觉token压缩方法存在位置偏差或忽略全局结构的问题,导致压缩效果不佳。
  2. LRCP通过PCA估计视觉token的低秩子空间,并基于投影残差进行token重要性评估和剪枝。
  3. 实验表明,LRCP在大幅减少token数量的同时,能够有效保持图像和视频理解的性能。

📝 摘要(中文)

大型视觉语言模型(LVLMs)在多模态理解方面表现出色,但其推理成本随着视觉token数量的增加而迅速增长,尤其是在高分辨率图像和长视频中。现有的基于注意力的方法通过注意力得分估计token的重要性,可能引入位置偏差;而基于表示的方法基于特征关系或重建误差来减少视觉冗余,忽略了视觉token集合的全局结构。本文从低秩可压缩性的角度重新审视视觉token压缩。我们观察到,跨模型和数据集,视觉token表示表现出显著的低秩结构,即使在随机移除大部分token后,其主导子空间仍然保持稳定。受此启发,我们提出了LRCP,一个无需训练的压缩框架,它首先通过PCA估计视觉token的主导低秩子空间,然后通过每个token在该子空间上的投影残差来评分,保留那些不能被低秩背景很好解释的token。大量实验表明,LRCP取得了优异的结果,在token减少88.9%的情况下,保留了原始图像理解性能的94.7%,在token减少87.5%的情况下,保留了平均视频理解准确率的97.8%。

🔬 方法详解

问题定义:LVLM在处理高分辨率图像和长视频时,视觉token数量庞大,导致推理成本过高。现有基于注意力或表示的token压缩方法存在局限性,前者可能引入位置偏差,后者忽略了视觉token集合的全局结构,无法有效去除冗余token。

核心思路:论文的核心思路是利用视觉token表示的低秩可压缩性。作者观察到,视觉token的特征表示具有明显的低秩结构,这意味着大部分信息集中在一个低维子空间中。因此,可以通过识别和去除那些不在该子空间中的token来压缩视觉信息,同时保留关键信息。

技术框架:LRCP框架主要包含两个阶段:1) 低秩子空间估计:使用主成分分析(PCA)对视觉token的特征表示进行降维,估计其主导的低秩子空间。2) Token重要性评分与剪枝:计算每个token在低秩子空间上的投影残差,残差越大,表示该token包含更多不在低秩背景中的信息,重要性越高。保留残差较大的token,去除残差较小的token。

关键创新:LRCP的关键创新在于从低秩可压缩性的角度审视视觉token压缩问题,并提出了一种基于PCA和投影残差的token重要性评估方法。与现有方法相比,LRCP无需训练,避免了位置偏差,并考虑了视觉token集合的全局结构。

关键设计:LRCP的关键设计包括:1) 使用PCA进行低秩子空间估计,PCA的维度选择需要根据实际情况进行调整。2) 使用投影残差作为token重要性评分标准,残差的计算方式为原始特征向量减去其在低秩子空间上的投影向量。3) Token剪枝的比例需要根据实际情况进行调整,以在性能和效率之间取得平衡。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,LRCP在图像理解任务中,能够在token减少88.9%的情况下,保留原始性能的94.7%。在视频理解任务中,能够在token减少87.5%的情况下,保留平均准确率的97.8%。这些结果表明,LRCP能够有效压缩视觉信息,同时保持较高的性能水平,优于现有的token压缩方法。

🎯 应用场景

LRCP可应用于各种需要高效视觉信息处理的场景,例如移动设备上的LVLM部署、实时视频分析、以及资源受限环境下的视觉任务。通过减少视觉token数量,LRCP可以显著降低计算成本和内存占用,提高LVLM的推理速度和效率,使其更易于部署和应用。

📄 摘要(原文)

Large vision-language models (LVLMs) achieve strong multimodal understanding, but their inference cost grows rapidly with the number of visual tokens, especially for high-resolution images and long videos. Existing attention-based methods estimate token importance from attention scores, which may introduce positional bias, while representation-based methods reduce visual redundancy based on feature relations or reconstruction errors, overlooking the global structure of the visual token set. In this paper, we revisit visual token compression from the perspective of low-rank compressibility. Across models and datasets, we observe that visual token representations exhibit a pronounced low-rank structure, with a dominant subspace that remains stable even after a large fraction of tokens is randomly removed. Motivated by this finding, we propose LRCP, a training-free compression framework that first estimates the dominant low-rank subspace of visual tokens via PCA, and then scores each token by its projection residual onto this subspace, retaining tokens that are poorly explained by the low-rank background. Extensive experiments show that LRCP achieves superior results, preserving 94.7% of the original image-understanding performance with an 88.9% token reduction and 97.8% of the average video-understanding accuracy with an 87.5% token reduction.