TAMP: Token-Adaptive Layerwise Pruning in Multimodal Large Language Models

📄 arXiv: 2504.09897v3 📥 PDF

作者: Jaewoo Lee, Keyang Xuan, Chanakya Ekbote, Sandeep Polisetty, Yi R. Fung, Paul Pu Liang

分类: cs.CV

发布日期: 2025-04-14 (更新: 2025-05-17)

备注: ACL Findings 2025


💡 一句话要点

TAMP:多模态大语言模型中基于Token自适应的层级剪枝

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 模型剪枝 Token自适应 稀疏性 注意力机制

📋 核心要点

  1. 现有MLLM剪枝方法忽略了不同层和模态间token属性的差异,导致剪枝效果不佳。
  2. TAMP框架通过多样性感知稀疏性和自适应多模态输入激活,针对MLLM的特性进行剪枝。
  3. 在LLaVA-NeXT和VideoLLaMA2上的实验表明,TAMP显著优于现有剪枝技术。

📝 摘要(中文)

多模态大语言模型(MLLM)在理解各种多模态数据和任务方面表现出卓越的通用性。然而,这些能力伴随着模型规模的增加。虽然训练后剪枝可以减少单模态模型的大小,但将其应用于MLLM通常效果有限。我们的分析发现,传统方法未能考虑到MLLM中跨层和模态的独特token属性。受此启发,我们提出了一种简单而有效的MLLM剪枝框架TAMP,它包含两个关键组件:(1)多样性感知稀疏性,它根据多模态输出token之间的多样性调整每层的稀疏度,在高多样性层中保留更多参数;(2)自适应多模态输入激活,它使用注意力分数识别代表性的多模态输入token,以指导非结构化权重剪枝。我们在两个最先进的MLLM上验证了我们的方法:LLaVA-NeXT(专为视觉-语言任务设计)和VideoLLaMA2(能够处理音频、视觉和语言模态)。在各种多模态评估基准上的实验表明,我们方法的每个组件都显著优于现有的剪枝技术。

🔬 方法详解

问题定义:论文旨在解决多模态大语言模型(MLLM)模型体积过大,难以部署的问题。现有的剪枝方法在单模态模型上表现良好,但直接应用于MLLM时效果不佳,因为它们没有考虑到MLLM中不同层和不同模态的token具有不同的属性和重要性。

核心思路:论文的核心思路是根据MLLM中token的多样性和重要性自适应地调整剪枝策略。具体来说,对于token多样性高的层,保留更多的参数;对于重要的多模态输入token,也保留其对应的权重。这样可以在保证模型性能的同时,尽可能地减小模型体积。

技术框架:TAMP框架包含两个主要模块:(1) 多样性感知稀疏性(Diversity-Aware Sparsity):根据多模态输出token的多样性调整每层的稀疏度。多样性高的层保留更多参数,多样性低的层进行更激进的剪枝。(2) 自适应多模态输入激活(Adaptive Multimodal Input Activation):利用注意力机制识别重要的多模态输入token,并保留与这些token相关的权重。

关键创新:TAMP的关键创新在于其token自适应的剪枝策略。与传统的静态剪枝方法不同,TAMP能够根据MLLM中token的动态特性调整剪枝策略,从而更好地保留模型的重要信息。此外,TAMP同时考虑了层级和模态两个维度上的token属性,使得剪枝更加精细化。

关键设计:在多样性感知稀疏性中,使用token输出的熵来衡量token的多样性。在自适应多模态输入激活中,使用注意力分数来衡量token的重要性。具体的稀疏度调整策略和权重剪枝方法未知,论文中可能包含更详细的公式和算法描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文在LLaVA-NeXT和VideoLLaMA2两个MLLM上进行了实验,并在多个多模态评估基准上取得了显著的性能提升。具体的数据提升幅度未知,但摘要中明确指出TAMP的每个组件都优于现有的剪枝技术。这些实验结果验证了TAMP的有效性和通用性。

🎯 应用场景

TAMP可以应用于各种需要部署多模态大语言模型的场景,例如移动设备上的视觉问答、智能助手的多模态交互、以及资源受限环境下的视频理解等。通过减小模型体积,TAMP可以降低计算成本和存储需求,使得MLLM更容易部署和应用。

📄 摘要(原文)

Multimodal Large Language Models (MLLMs) have shown remarkable versatility in understanding diverse multimodal data and tasks. However, these capabilities come with an increased model scale. While post-training pruning reduces model size in unimodal models, its application to MLLMs often yields limited success. Our analysis discovers that conventional methods fail to account for the unique token attributes across layers and modalities inherent to MLLMs. Inspired by this observation, we propose TAMP, a simple yet effective pruning framework tailored for MLLMs, featuring two key components: (1) Diversity-Aware Sparsity, which adjusts sparsity ratio per layer based on diversities among multimodal output tokens, preserving more parameters in high-diversity layers; and (2) Adaptive Multimodal Input Activation, which identifies representative multimodal input tokens using attention scores to guide unstructured weight pruning. We validate our method on two state-of-the-art MLLMs: LLaVA-NeXT, designed for vision-language tasks, and VideoLLaMA2, capable of processing audio, visual, and language modalities. Empirical experiments across various multimodal evaluation benchmarks demonstrate that each component of our approach substantially outperforms existing pruning techniques.