Balancing Saliency and Coverage: Semantic Prominence-Aware Budgeting for Visual Token Compression in VLMs
作者: Jaehoon Lee, Mingi Jung, Soohyuk Jang, Seungryong Yoo, Dahuin Jung, Sungroh Yoon
分类: cs.CV
发布日期: 2026-03-16
💡 一句话要点
提出PromPrune,通过语义显著性感知预算分配实现VLM视觉token自适应压缩。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉语言模型 token压缩 语义显著性 预算分配 自适应压缩
📋 核心要点
- 现有VLM的视觉token压缩方法采用静态策略,忽略了样本间语义显著性分布的差异,导致压缩效果受限。
- PromPrune通过语义显著性感知预算分配,自适应地平衡局部显著性保持和全局覆盖,实现更有效的token压缩。
- 实验表明,PromPrune在大幅降低计算量的同时,能够保持较高的模型精度,验证了其有效性。
📝 摘要(中文)
大型视觉语言模型(VLM)通过利用高分辨率视觉输入实现了强大的多模态理解能力,但由此产生的大量视觉token造成了主要的计算瓶颈。目前的工作通常基于显著性、多样性或两者的固定组合来压缩token,从而缓解这个问题。我们观察到,语义显著性的分布在不同样本之间差异很大,导致局部显著性保持和全局覆盖之间的最佳权衡有所不同。这一观察表明,对所有样本应用静态压缩策略可能不是最优的。受此启发,我们提出了PromPrune,一个样本自适应的视觉token选择框架,由语义显著性感知预算分配和两阶段选择流程组成。我们的方法根据每个样本的语义显著性分布,自适应地平衡局部显著性保持和全局覆盖。通过在局部显著区域和全局多样区域之间分配token预算,我们的方法即使在高压缩率下也能保持强大的性能。在LLaVA-NeXT-7B上,我们的方法减少了88%的FLOPs和22%的预填充延迟,同时保留了97.5%的原始精度。
🔬 方法详解
问题定义:VLM依赖高分辨率图像输入,导致视觉token数量庞大,计算成本高昂。现有的视觉token压缩方法,如基于显著性或多样性的方法,通常采用静态的压缩策略,无法适应不同图像中语义显著性分布的差异,导致压缩性能受限。
核心思路:PromPrune的核心思想是根据输入图像的语义显著性分布,自适应地分配token预算,从而在局部显著区域和全局多样区域之间取得更好的平衡。通过动态调整压缩策略,PromPrune能够更有效地保留图像中的关键信息,提高压缩性能。
技术框架:PromPrune包含两个主要阶段:语义显著性感知预算分配和两阶段token选择。首先,根据图像的语义显著性分布,确定局部显著区域和全局多样区域的token预算。然后,在两阶段token选择中,分别从局部显著区域和全局多样区域选择token,以满足预算约束。
关键创新:PromPrune的关键创新在于语义显著性感知的预算分配机制。它能够根据图像内容动态调整压缩策略,从而更好地适应不同图像的特点。这种自适应的压缩方法与现有的静态压缩方法有着本质的区别。
关键设计:PromPrune使用预训练的视觉模型提取图像特征,并计算每个token的语义显著性得分。基于这些得分,PromPrune使用一个可学习的模块来预测局部显著区域和全局多样区域的token预算。两阶段token选择过程可以使用不同的选择算法,例如基于显著性的选择或基于聚类的选择。
🖼️ 关键图片
📊 实验亮点
在LLaVA-NeXT-7B模型上,PromPrune实现了显著的性能提升。该方法在保持97.5%原始精度的前提下,将FLOPs降低了88%,预填充延迟降低了22%。这些结果表明,PromPrune是一种高效且有效的视觉token压缩方法,能够显著降低VLM的计算成本。
🎯 应用场景
PromPrune可应用于各种需要高效VLM推理的场景,例如移动设备上的视觉问答、图像字幕生成和目标检测。通过降低计算成本和延迟,PromPrune可以使VLM在资源受限的环境中更易于部署和使用。此外,该方法还可以促进VLM在自动驾驶、机器人等领域的应用。
📄 摘要(原文)
Large Vision-Language Models (VLMs) achieve strong multimodal understanding capabilities by leveraging high-resolution visual inputs, but the resulting large number of visual tokens creates a major computational bottleneck. Recent work mitigates this issue through visual token compression, typically compressing tokens based on saliency, diversity, or a fixed combination of both. We observe that the distribution of semantic prominence varies substantially across samples, leading to different optimal trade-offs between local saliency preservation and global coverage. This observation suggests that applying a static compression strategy across all samples can be suboptimal. Motivated by this insight, we propose PromPrune, a sample-adaptive visual token selection framework composed of semantic prominence-aware budget allocation and a two-stage selection pipeline. Our method adaptively balances local saliency preservation and global coverage according to the semantic prominence distribution of each sample. By allocating token budgets between locally salient regions and globally diverse regions, our method maintains strong performance even under high compression ratios. On LLaVA-NeXT-7B, our approach reduces FLOPs by 88% and prefill latency by 22% while preserving 97.5% of the original accuracy.