CLASP: Class-Adaptive Layer Fusion and Dual-Stage Pruning for Multimodal Large Language Models
作者: Yunkai Dang, Yizhu Jiang, Yifan Jiang, Qi Fan, Yinghuan Shi, Wenbin Li, Yang Gao
分类: cs.CV, cs.AI
发布日期: 2026-04-14
🔗 代码/项目: GITHUB
💡 一句话要点
CLASP:面向多模态大语言模型的类自适应层融合与双阶段剪枝
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态大语言模型 视觉token缩减 类自适应学习 层融合 双阶段剪枝 模型剪枝 视觉问答
📋 核心要点
- 现有MLLM方法在视觉token处理上存在冗余,计算开销大,且静态剪枝策略难以适应多样指令。
- CLASP通过类自适应层融合和双阶段剪枝,实现提示条件下的特征融合和token预算动态分配。
- 实验表明,CLASP在多种基准测试和MLLM架构下,均优于现有方法,实现了更有效的token缩减。
📝 摘要(中文)
多模态大语言模型(MLLMs)由于视觉token序列的高度冗余而面临巨大的计算开销。现有方法通常使用单层Vision Transformer (ViT)特征和静态剪枝策略来解决这个问题。然而,这种固定的配置在不同的指令下通常是脆弱的。为了克服这些限制,我们提出了CLASP,一个基于类自适应层融合和双阶段剪枝的即插即用token缩减框架。具体来说,CLASP首先通过多层视觉特征融合构建特定类别的视觉表示。然后,它执行双阶段剪枝,在用于相关性的注意力显著的关键token和用于覆盖的冗余感知完成token之间分配token预算。通过类自适应剪枝,CLASP实现了提示条件下的特征融合和预算分配,从而实现了激进但稳健的视觉token缩减。大量的实验表明,CLASP在各种基准、剪枝率和MLLM架构上始终优于现有方法。
🔬 方法详解
问题定义:多模态大语言模型处理视觉信息时,视觉token序列存在大量冗余,导致计算开销巨大。现有的token缩减方法通常依赖于单层ViT特征和静态剪枝策略,无法根据不同的指令和类别动态调整,导致性能下降或泛化能力不足。
核心思路:CLASP的核心思路是利用类自适应的方式,根据不同的类别和指令,动态地融合多层视觉特征,并进行双阶段剪枝。通过这种方式,可以更有效地保留关键信息,去除冗余信息,从而在保证性能的同时,显著减少计算开销。
技术框架:CLASP是一个即插即用的token缩减框架,主要包含两个阶段:类自适应层融合和双阶段剪枝。首先,通过多层视觉特征融合,构建特定类别的视觉表示。然后,执行双阶段剪枝,包括选择注意力显著的关键token(pivot tokens)和补充覆盖范围的冗余感知完成token(completion tokens)。整个过程是提示条件下的,可以根据不同的提示动态调整。
关键创新:CLASP的关键创新在于类自适应的特征融合和双阶段剪枝策略。类自适应特征融合允许模型根据不同的类别选择合适的视觉特征层进行融合,从而更好地捕捉特定类别的特征。双阶段剪枝策略则可以同时考虑token的相关性和覆盖范围,从而更有效地保留关键信息。
关键设计:CLASP的关键设计包括:1) 使用可学习的权重对不同ViT层的特征进行加权融合,权重由类别信息决定;2) 双阶段剪枝中,pivot tokens的选择基于注意力得分,completion tokens的选择基于token之间的相似度,以保证覆盖范围;3) 损失函数的设计,鼓励模型在剪枝后仍然能够保持较高的性能。
🖼️ 关键图片
📊 实验亮点
CLASP在多个基准测试中取得了显著的性能提升。例如,在VQA任务上,CLASP在保持甚至提高准确率的同时,能够显著减少视觉token的数量,降低计算成本。实验结果表明,CLASP在不同的MLLM架构和剪枝率下,均优于现有的token缩减方法,证明了其有效性和通用性。
🎯 应用场景
CLASP可应用于各种需要处理视觉信息的多模态大语言模型,例如图像描述、视觉问答、视觉推理等。通过减少视觉token的数量,可以显著降低计算成本,提高模型的推理速度,使其更易于部署在资源受限的设备上。此外,CLASP的类自适应特性使其能够更好地处理不同类别的视觉信息,提高模型的泛化能力。
📄 摘要(原文)
Multimodal Large Language Models (MLLMs) suffer from substantial computational overhead due to the high redundancy in visual token sequences. Existing approaches typically address this issue using single-layer Vision Transformer (ViT) features and static pruning strategies. However, such fixed configurations are often brittle under diverse instructions. To overcome these limitations, we propose CLASP, a plug-and-play token reduction framework based on class-adaptive layer fusion and dual-stage pruning. Specifically, CLASP first constructs category-specific visual representations through multi-layer vision feature fusion. It then performs dual-stage pruning, allocating the token budget between attention-salient pivot tokens for relevance and redundancy-aware completion tokens for coverage. Through class-adaptive pruning, CLASP enables prompt-conditioned feature fusion and budget allocation, allowing aggressive yet robust visual token reduction. Extensive experiments demonstrate that CLASP consistently outperforms existing methods across a wide range of benchmarks, pruning ratios, and MLLM architectures. Code will be available at https://github.com/Yunkaidang/CLASP.