PLPHP: Per-Layer Per-Head Vision Token Pruning for Efficient Large Vision-Language Models
作者: Yu Meng, Kaiyuan Li, Chenran Huang, Chen Gao, Xinlei Chen, Yong Li, Xiaoping Zhang
分类: cs.CV, cs.AI
发布日期: 2025-02-20
备注: 12 pages, 8 figures
💡 一句话要点
提出PLPHP以解决大规模视觉语言模型的推理效率问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉语言模型 推理效率 细粒度剪枝 多模态任务 动态调整 注意力机制 性能优化
📋 核心要点
- 现有的大规模视觉语言模型在推理时处理的视觉标记数量庞大,导致推理效率低下。
- PLPHP通过逐层和逐头的剪枝策略,动态调整视觉标记的保留率,以提高推理效率。
- 实验表明,PLPHP在解码速度上提升18%,KV Cache大小减少50%以上,且性能下降极小。
📝 摘要(中文)
大规模视觉语言模型(LVLMs)在多模态任务中表现出色,但其推理效率受到解码过程中处理的视觉标记数量的限制。为了解决这一挑战,本文提出了逐层逐头视觉标记剪枝(PLPHP),这是一种包括层级保留率分配和头级视觉标记剪枝的两级细粒度剪枝方法。通过动态调整每层的标记保留率,PLPHP能够在不同层中根据视觉信息的关注程度保留更多的视觉标记。此外,PLPHP还在注意力头级别进行剪枝,使同一层内的不同头能够独立保留关键上下文。实验结果表明,PLPHP在多个基准测试中实现了18%的解码速度提升,并将键值缓存(KV Cache)大小减少了50%以上,平均性能下降仅为0.46%,同时在多图像任务中也取得了显著的性能提升。
🔬 方法详解
问题定义:本文旨在解决大规模视觉语言模型在推理过程中由于处理大量视觉标记而导致的效率低下问题。现有方法未能有效利用视觉信息的层级特性,导致资源浪费。
核心思路:PLPHP的核心思路是通过逐层和逐头的剪枝策略,动态调整每层的视觉标记保留率。具体而言,关注视觉信息的层保留更多标记,而关注较少的层则进行更激进的剪枝。
技术框架:PLPHP的整体架构包括两个主要模块:层级保留率分配和头级视觉标记剪枝。首先,根据每层的视觉关注度分配保留率,然后在每个注意力头级别进行独立剪枝,以保留关键上下文。
关键创新:PLPHP的创新点在于其细粒度的剪枝策略,允许在层级和头级别独立调整标记保留率。这种方法与现有的粗粒度剪枝方法本质上不同,能够更有效地利用视觉信息。
关键设计:在PLPHP中,关键设计包括动态调整的保留率、剪枝策略的实施细节,以及在不同层和头之间的灵活性设置。这些设计确保了在保持性能的同时显著提高了推理速度和效率。
🖼️ 关键图片
📊 实验亮点
实验结果显示,PLPHP在多个基准测试中实现了18%的解码速度提升,并将键值缓存(KV Cache)大小减少了50%以上,平均性能下降仅为0.46%。此外,在多图像任务中,PLPHP还展现了显著的性能提升,证明了其有效性。
🎯 应用场景
该研究的潜在应用场景包括多模态任务的实时处理,如图像描述生成、视觉问答和跨模态检索等。通过提高大规模视觉语言模型的推理效率,PLPHP能够在资源受限的环境中实现更高效的多模态交互,具有重要的实际价值和未来影响。
📄 摘要(原文)
Large Vision-Language Models (LVLMs) have demonstrated remarkable capabilities across a range of multimodal tasks. However, their inference efficiency is constrained by the large number of visual tokens processed during decoding. To address this challenge, we propose Per-Layer Per-Head Vision Token Pruning (PLPHP), a two-level fine-grained pruning method including Layer-Level Retention Rate Allocation and Head-Level Vision Token Pruning. Motivated by the Vision Token Re-attention phenomenon across decoder layers, we dynamically adjust token retention rates layer by layer. Layers that exhibit stronger attention to visual information preserve more vision tokens, while layers with lower vision attention are aggressively pruned. Furthermore, PLPHP applies pruning at the attention head level, enabling different heads within the same layer to independently retain critical context. Experiments on multiple benchmarks demonstrate that PLPHP delivers an 18% faster decoding speed and reduces the Key-Value Cache (KV Cache) size by over 50%, all at the cost of 0.46% average performance drop, while also achieving notable performance improvements in multi-image tasks. These results highlight the effectiveness of fine-grained token pruning and contribute to advancing the efficiency and scalability of LVLMs. Our source code will be made publicly available.