HiDrop: Hierarchical Vision Token Reduction in MLLMs via Late Injection, Concave Pyramid Pruning, and Early Exit

📄 arXiv: 2602.23699v1 📥 PDF

作者: Hao Wu, Yingqi Fan, Jinyang Dai, Junlong Tong, Yunpu Ma, Xiaoyu Shen

分类: cs.CV, cs.CL

发布日期: 2026-02-27

备注: Accepted to ICLR 2026

🔗 代码/项目: GITHUB


💡 一句话要点

HiDrop:通过分层视觉Token缩减提升多模态大语言模型的效率。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 视觉Token剪枝 分层Token缩减 延迟注入 凹金字塔剪枝

📋 核心要点

  1. 现有MLLM在处理视觉Token时计算成本高昂,限制了其应用,而现有剪枝方法未能充分理解浅层功能,效率提升有限。
  2. HiDrop通过延迟注入和凹金字塔剪枝,使Token剪枝与MLLM层级的真实功能对齐,动态调整剪枝率,提升效率。
  3. 实验表明,HiDrop能够在压缩约90%视觉Token的同时,保持原始性能,并将训练速度提升1.72倍,达到新的技术水平。

📝 摘要(中文)

多模态大语言模型(MLLM)处理视觉Token时面临二次方计算成本,阻碍了其广泛应用。渐进式视觉Token剪枝是一种有前景的解决方案,但现有方法误解了浅层的功能,并使用僵化的策略,未能充分释放效率潜力。为了解决这些问题,我们提出了HiDrop框架,该框架使Token剪枝与MLLM层级的真实功能对齐。HiDrop具有两个关键创新:(1)延迟注入,绕过被动的浅层,将视觉Token精确地引入到主动融合开始的地方;(2)具有提前退出机制的凹金字塔剪枝,以动态调整中间层和深层的剪枝率。该过程通过层间相似性度量和可微的top-k算子进行优化。为了确保实际效率,HiDrop进一步结合了持久位置编码、FlashAttention兼容的Token选择以及视觉计算的并行解耦,以消除与动态Token缩减相关的隐藏开销。大量实验表明,HiDrop压缩了约90%的视觉Token,同时匹配了原始性能,并将训练加速了1.72倍。我们的工作不仅为高效的MLLM训练和推理设定了新的技术水平,而且为多模态融合的分层性质提供了有价值的见解。

🔬 方法详解

问题定义:多模态大语言模型(MLLM)在处理视觉信息时,由于视觉Token数量庞大,计算复杂度呈二次方增长,导致训练和推理效率低下。现有的视觉Token剪枝方法通常采用固定的剪枝策略,忽略了MLLM不同层级的功能差异,特别是浅层可能并不需要进行复杂的视觉信息处理,从而导致剪枝效率不高,甚至影响模型性能。

核心思路:HiDrop的核心思路是根据MLLM不同层级的实际功能,进行分层视觉Token缩减。具体来说,通过“延迟注入”避免在浅层进行不必要的视觉信息处理,并通过“凹金字塔剪枝”动态调整中间层和深层的剪枝率。这种分层处理方式能够更有效地去除冗余的视觉Token,从而提高计算效率,同时保持模型性能。

技术框架:HiDrop框架主要包含三个关键模块:1) 延迟注入(Late Injection):将视觉Token直接注入到MLLM中需要进行视觉信息融合的层级,避免在浅层进行不必要的计算。2) 凹金字塔剪枝(Concave Pyramid Pruning):根据层间相似性度量动态调整中间层和深层的剪枝率,形成一个凹形的剪枝比例,即中间层剪枝较少,深层剪枝较多。3) 提前退出机制(Early Exit):允许模型在中间层提前输出结果,进一步减少计算量。此外,HiDrop还采用了持久位置编码、FlashAttention兼容的Token选择以及视觉计算的并行解耦等技术,以消除动态Token缩减带来的额外开销。

关键创新:HiDrop的关键创新在于其分层视觉Token缩减策略,该策略能够更好地适应MLLM不同层级的功能需求。与现有方法相比,HiDrop的延迟注入避免了在浅层进行不必要的计算,凹金字塔剪枝能够更精确地控制不同层级的剪枝率,从而在保证模型性能的同时,显著提高计算效率。此外,HiDrop还通过多种技术手段消除了动态Token缩减带来的额外开销,使其在实际应用中更具优势。

关键设计:HiDrop的关键设计包括:1) 层间相似性度量:用于评估不同层级之间的视觉信息相似度,从而确定最佳的视觉Token注入位置和剪枝率。2) 可微的top-k算子:用于选择最重要的视觉Token,并保证剪枝过程的可微性,从而能够通过反向传播优化模型参数。3) 凹金字塔剪枝比例:中间层剪枝比例较低,深层剪枝比例较高,以适应不同层级的功能需求。4) FlashAttention兼容的Token选择:确保剪枝后的Token能够与FlashAttention机制兼容,从而提高计算效率。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

HiDrop在实验中表现出色,能够在压缩约90%的视觉Token的同时,保持与原始模型相当的性能。更重要的是,HiDrop能够将MLLM的训练速度提升1.72倍,这表明其在实际应用中具有显著的效率优势。这些结果表明HiDrop为高效的MLLM训练和推理提供了一种有效的解决方案。

🎯 应用场景

HiDrop技术可广泛应用于各种需要处理大量视觉信息的多模态大语言模型应用场景,例如图像描述、视觉问答、视频理解等。通过降低计算成本,HiDrop能够使这些模型在资源受限的设备上运行,并加速模型的训练和推理过程,从而推动多模态大语言模型在实际应用中的普及。

📄 摘要(原文)

The quadratic computational cost of processing vision tokens in Multimodal Large Language Models (MLLMs) hinders their widespread adoption. While progressive vision token pruning offers a promising solution, current methods misinterpret shallow layer functions and use rigid schedules, which fail to unlock the full efficiency potential. To address these issues, we propose HiDrop, a framework that aligns token pruning with the true hierarchical function of MLLM layers. HiDrop features two key innovations: (1) Late Injection, which bypasses passive shallow layers to introduce visual tokens exactly where active fusion begins; and (2) Concave Pyramid Pruning with an Early Exit mechanism to dynamically adjust pruning rates across middle and deep layers. This process is optimized via an inter-layer similarity measure and a differentiable top-k operator. To ensure practical efficiency, HiDrop further incorporates persistent positional encoding, FlashAttention-compatible token selection, and parallel decoupling of vision computation to eliminate hidden overhead associated with dynamic token reduction. Extensive experiments show that HiDrop compresses about 90% visual tokens while matching the original performance and accelerating training by 1.72 times. Our work not only sets a new state-of-the-art for efficient MLLM training and inference but also provides valuable insights into the hierarchical nature of multimodal fusion. The code is released at https://github.com/EIT-NLP/HiDrop.