LVPruning: An Effective yet Simple Language-Guided Vision Token Pruning Approach for Multi-modal Large Language Models

📄 arXiv: 2501.13652v2 📥 PDF

作者: Yizheng Sun, Yanze Xin, Hao Li, Jingyuan Sun, Chenghua Lin, Riza Batista-Navarro

分类: cs.CL

发布日期: 2025-01-23 (更新: 2025-03-09)

备注: Accepted to NAACL 2025 Findings


💡 一句话要点

提出LVPruning,通过语言引导的视觉Token剪枝,高效压缩多模态大语言模型。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 视觉Token剪枝 语言引导 模型压缩 交叉注意力

📋 核心要点

  1. 多模态大语言模型计算开销大,部署受限,需要高效的压缩方法。
  2. LVPruning利用语言tokens引导视觉tokens剪枝,无需修改模型参数。
  3. 实验表明,LVPruning能显著降低计算量,同时保持模型性能。

📝 摘要(中文)

多模态大语言模型(MLLMs)通过整合视觉和文本模态取得了显著成功。然而,由于处理大量的视觉tokens,它们产生了巨大的计算开销,限制了其在资源受限环境中的实用性。我们为MLLMs引入了语言引导的视觉Token剪枝(LVPruning),这是一种有效而简单的方法,可以在保持模型性能的同时显著降低计算负担。LVPruning采用交叉注意力模块来计算视觉tokens的重要性,基于它们与语言tokens的交互,从而决定要剪枝哪些tokens。重要的是,LVPruning可以在不修改原始MLLM参数的情况下集成,这使得LVPruning易于应用或移除。我们的实验表明,LVPruning可以有效地减少LLaVA-1.5中间层高达90%的视觉tokens,从而使推理Tera Floating-Point Operations Per Second (TFLOPs) 降低62.1%,并在九个多模态基准测试中平均性能损失仅为0.45%。

🔬 方法详解

问题定义:多模态大语言模型(MLLMs)在处理视觉和文本信息时表现出色,但其庞大的模型规模和大量的视觉tokens导致了巨大的计算开销,限制了它们在资源受限设备上的部署和应用。现有方法通常需要对模型进行微调或复杂的结构调整,增加了实施难度和潜在的性能损失。

核心思路:LVPruning的核心思想是利用语言模态的信息来指导视觉tokens的剪枝过程。通过分析视觉tokens与语言tokens之间的交叉注意力,可以确定哪些视觉tokens对于理解和生成文本至关重要,从而保留重要的视觉信息,并安全地移除冗余的视觉tokens。这种方法避免了直接修改模型参数,保持了模型的原始结构和预训练知识。

技术框架:LVPruning的整体框架包括以下几个主要步骤:1) 将图像和文本输入MLLM;2) 在模型的中间层,使用交叉注意力模块计算视觉tokens和语言tokens之间的注意力权重;3) 基于注意力权重,评估每个视觉token的重要性;4) 根据预设的剪枝比例,移除重要性较低的视觉tokens;5) 将剪枝后的视觉tokens传递到后续层进行处理。整个过程可以在不修改原始MLLM参数的情况下进行。

关键创新:LVPruning的关键创新在于其简单性和有效性。它不需要对MLLM进行任何微调或结构修改,而是通过分析现有的交叉注意力机制来指导视觉tokens的剪枝。这种方法不仅易于实施,而且可以有效地降低计算开销,同时保持模型的性能。与需要重新训练或微调的剪枝方法相比,LVPruning具有更高的效率和灵活性。

关键设计:LVPruning的关键设计包括:1) 使用交叉注意力权重作为视觉token重要性的指标;2) 设置合适的剪枝比例,以平衡计算开销和模型性能;3) 在模型的中间层进行剪枝,以最大程度地减少对后续层的影响。具体而言,论文使用交叉注意力模块的输出,计算每个视觉token对所有语言tokens的平均注意力权重,作为该视觉token的重要性得分。然后,根据预设的剪枝比例,移除重要性得分最低的视觉tokens。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

LVPruning在LLaVA-1.5模型上实现了显著的性能提升。实验结果表明,该方法可以减少高达90%的视觉tokens,使推理TFLOPs降低62.1%,同时在九个多模态基准测试中平均性能损失仅为0.45%。这些结果表明,LVPruning是一种有效且实用的多模态大语言模型压缩方法。

🎯 应用场景

LVPruning适用于各种需要部署多模态大语言模型的场景,如移动设备上的图像理解、智能助手、自动驾驶等。通过降低计算开销,可以使这些模型在资源受限的环境中更高效地运行,并促进多模态AI技术的普及和应用。未来,该技术有望进一步扩展到其他模态和模型架构,实现更广泛的性能优化。

📄 摘要(原文)

Multi-modal Large Language Models (MLLMs) have achieved remarkable success by integrating visual and textual modalities. However, they incur significant computational overhead due to the large number of vision tokens processed, limiting their practicality in resource-constrained environments. We introduce Language-Guided Vision Token Pruning (LVPruning) for MLLMs, an effective yet simple method that significantly reduces the computational burden while preserving model performance. LVPruning employs cross-attention modules to compute the importance of vision tokens based on their interaction with language tokens, determining which to prune. Importantly, LVPruning can be integrated without modifying the original MLLM parameters, which makes LVPruning simple to apply or remove. Our experiments show that LVPruning can effectively reduce up to 90% of vision tokens by the middle layer of LLaVA-1.5, resulting in a 62.1% decrease in inference Tera Floating-Point Operations Per Second (TFLOPs), with an average performance loss of just 0.45% across nine multi-modal benchmarks.