HAWK: Head Importance-Aware Visual Token Pruning in Multimodal Models

📄 arXiv: 2604.07812v1 📥 PDF

作者: Qihui Zhu, Tao Zhang, Yuchen Wang, Zijian Wen, Mengjie Zhang, Shuangwu Chen, Xiaobin Tan, Jian Yang, Yang Liu, Zhenhua Dong, Xianzhi Yu, Yinfei Pan

分类: cs.CV

发布日期: 2026-04-09

备注: CVPR 2026

🔗 代码/项目: GITHUB


💡 一句话要点

HAWK:多模态模型中基于头部重要性的视觉Token剪枝

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 视觉Token剪枝 注意力机制 头部重要性 模型压缩

📋 核心要点

  1. 现有视觉Token剪枝方法忽略了不同注意力头在视觉信息处理中的差异性。
  2. HAWK通过感知注意力头的重要性,保留关键视觉Token,移除冗余Token,提升效率。
  3. 实验表明,HAWK在保持高精度的同时,显著降低了推理时间和GPU内存占用。

📝 摘要(中文)

在多模态大语言模型(MLLM)中,视觉token的激增显著增加了推理时间和计算开销,使其难以应用于实时或资源受限的场景。视觉token剪枝是一种通过移除冗余视觉token来降低MLLM推理成本的有前景的策略。现有研究通常假设所有注意力头对视觉解释的贡献相同。然而,我们的研究表明,不同的头可能捕获不同的视觉语义,并且在视觉处理中发挥着不同的作用。鉴于此,我们提出HAWK,一种头部重要性感知的视觉token剪枝方法,它感知注意力头在视觉任务中的不同重要性,从而最大限度地保留关键token。通过利用头部重要性权重和文本引导的注意力来评估视觉token的重要性,HAWK有效地保留了与任务相关的视觉token,同时移除了冗余的token。所提出的HAWK是完全免训练的,可以无缝地应用于各种MLLM。在多个主流视觉-语言基准上的大量实验表明,HAWK实现了最先进的精度。当应用于Qwen2.5-VL时,HAWK在剪枝80.2%的视觉token后,仍能保持原始精度的96.0%。此外,它将端到端延迟降低到原始的74.4%,并进一步降低了测试模型中的GPU内存使用量。

🔬 方法详解

问题定义:现有的多模态大语言模型(MLLM)在处理视觉信息时,会生成大量的视觉token,这显著增加了推理时间和计算开销,尤其是在资源受限的设备上。现有的视觉token剪枝方法通常平等对待所有注意力头,忽略了它们在视觉信息处理中的不同作用,导致关键视觉信息的丢失,影响模型性能。

核心思路:HAWK的核心思路是根据注意力头在视觉任务中的重要性进行视觉token剪枝。通过评估每个注意力头对最终任务的贡献程度,有选择性地保留重要性高的注意力头所关注的视觉token,并移除重要性低的注意力头所关注的冗余token。这样可以在减少计算量的同时,最大限度地保留关键的视觉信息。

技术框架:HAWK的整体框架包括以下几个主要步骤:1) 头部重要性评估:利用文本信息指导,评估每个注意力头对视觉任务的贡献程度,得到头部重要性权重。2) 视觉Token重要性评估:结合头部重要性权重和文本引导的注意力,评估每个视觉token的重要性。3) Token剪枝:根据视觉token的重要性得分,移除低于阈值的token,保留重要的token。该框架是完全免训练的,可以无缝地集成到现有的MLLM中。

关键创新:HAWK的关键创新在于提出了头部重要性感知的视觉token剪枝方法。与现有方法不同,HAWK能够区分不同注意力头在视觉信息处理中的作用,并根据其重要性进行token剪枝。这种方法能够更有效地保留关键视觉信息,提高剪枝后的模型性能。

关键设计:HAWK的关键设计包括:1) 头部重要性权重计算:使用文本信息引导的注意力机制来计算每个注意力头的重要性权重。具体来说,通过计算文本token和视觉token之间的交叉注意力,可以衡量每个注意力头对文本信息的关注程度,从而反映其在视觉任务中的重要性。2) Token重要性阈值:通过实验确定最佳的token重要性阈值,以平衡剪枝率和模型性能。3) 免训练设计:HAWK是完全免训练的,避免了额外的训练开销,使其能够快速部署到各种MLLM中。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

HAWK在多个主流视觉-语言基准测试中取得了最先进的性能。例如,在应用于Qwen2.5-VL模型时,HAWK在剪枝80.2%的视觉token后,仍能保持原始精度的96.0%。此外,HAWK还将端到端延迟降低到原始的74.4%,并进一步降低了测试模型中的GPU内存使用量。这些结果表明,HAWK能够有效地减少MLLM的计算开销,同时保持较高的模型性能。

🎯 应用场景

HAWK可应用于各种资源受限的场景,例如移动设备、嵌入式系统和边缘计算设备。通过减少MLLM的计算量和内存占用,HAWK可以提高这些设备上的推理速度和效率,从而实现更流畅的视觉-语言交互体验。此外,HAWK还可以应用于实时视觉问答、图像字幕生成等任务,提高这些任务的响应速度和准确性。

📄 摘要(原文)

In multimodal large language models (MLLMs), the surge of visual tokens significantly increases the inference time and computational overhead, making them impractical for real-time or resource-constrained applications. Visual token pruning is a promising strategy for reducing the cost of MLLM inference by removing redundant visual tokens. Existing research usually assumes that all attention heads contribute equally to the visual interpretation. However, our study reveals that different heads may capture distinct visual semantics and inherently play distinct roles in visual processing. In light of this observation, we propose HAWK, a head importance-aware visual token pruning method that perceives the varying importance of attention heads in visual tasks to maximize the retention of crucial tokens. By leveraging head importance weights and text-guided attention to assess visual token significance, HAWK effectively retains task-relevant visual tokens while removing redundant ones. The proposed HAWK is entirely training-free and can be seamlessly applied to various MLLMs. Extensive experiments on multiple mainstream vision-language benchmarks demonstrate that HAWK achieves state-of-the-art accuracy. When applied to Qwen2.5-VL, HAWK retains 96.0% of the original accuracy after pruning 80.2% of the visual tokens. Additionally, it reduces end-to-end latency to 74.4% of the original and further decreases GPU memory usage across the tested models. The code is available at https://github.com/peppery77/HAWK.git.