SCOPE: Saliency-Coverage Oriented Token Pruning for Efficient Multimodel LLMs
作者: Jinhong Deng, Wen Li, Joey Tianyi Zhou, Yang He
分类: cs.CV
发布日期: 2025-10-28
备注: NeurIPS 2025
🔗 代码/项目: GITHUB
💡 一句话要点
提出SCOPE,一种面向显著性和覆盖率的多模态大语言模型视觉Token剪枝方法。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态大语言模型 视觉Token剪枝 显著性 覆盖率 模型效率 视觉语言理解
📋 核心要点
- 现有视觉Token剪枝方法仅关注显著性,忽略了语义完整性,导致剪枝后的信息不完整。
- SCOPE联合建模显著性和覆盖率,通过token关系计算集合覆盖率,并引入token覆盖率增益。
- 实验表明,SCOPE在多个视觉-语言理解基准上优于现有方法,提升了模型效率。
📝 摘要(中文)
多模态大语言模型(MLLMs)通常处理大量的视觉tokens,导致巨大的计算开销,即使其中许多tokens是冗余的。现有的视觉token剪枝方法主要集中在基于注意力分数选择最显著的tokens,导致所选tokens的语义不完整。本文提出了一种新的视觉token剪枝策略,称为SCOPE,即面向显著性和覆盖率的token剪枝,用于高效的MLLMs,以联合建模所选视觉tokens的显著性和覆盖率,从而更好地保持语义完整性。具体来说,我们为给定的一组选定的tokens引入了一个集合覆盖率,该覆盖率是基于token关系计算的。然后,我们为每个未选择的token定义一个token覆盖率增益,量化包含它将获得的额外覆盖率。通过将显著性分数整合到token覆盖率增益中,我们提出了SCOPE分数,并迭代地选择具有最高SCOPE分数的token。我们在使用LLaVA-1.5和LLaVA-Next模型的多个视觉-语言理解基准上进行了广泛的实验。实验结果表明,我们的方法始终优于以前的方法。
🔬 方法详解
问题定义:多模态大语言模型处理大量视觉tokens导致计算开销巨大,而现有剪枝方法仅关注tokens的显著性,忽略了tokens之间的关系和整体语义覆盖,导致剪枝后的tokens集合语义不完整,影响模型性能。
核心思路:核心思路是同时考虑视觉tokens的显著性和覆盖率。显著性保证选择重要的tokens,覆盖率保证选择的tokens能够尽可能覆盖原始图像的语义信息,从而在减少计算量的同时,保持模型的性能。通过迭代选择具有最高SCOPE分数的token,实现显著性和覆盖率的平衡。
技术框架:SCOPE方法主要包含以下几个步骤:1. 计算所有视觉tokens的显著性得分;2. 基于tokens之间的关系,计算集合覆盖率;3. 为每个未选择的token计算token覆盖率增益;4. 将显著性得分和token覆盖率增益整合为SCOPE得分;5. 迭代选择具有最高SCOPE得分的token,直到达到预设的剪枝比例。
关键创新:关键创新在于提出了SCOPE得分,它将tokens的显著性得分和覆盖率增益结合起来,从而能够在选择tokens时同时考虑这两个因素。与现有方法只关注显著性不同,SCOPE能够更好地保持剪枝后tokens集合的语义完整性。
关键设计:SCOPE得分的计算公式是关键设计之一。具体来说,SCOPE得分是显著性得分和覆盖率增益的加权和。权重参数控制了显著性和覆盖率在选择tokens时的相对重要性。此外,token关系的定义和集合覆盖率的计算方式也会影响最终的剪枝效果。论文中具体使用了何种token关系和覆盖率计算方式未知。
🖼️ 关键图片
📊 实验亮点
实验结果表明,SCOPE方法在LLaVA-1.5和LLaVA-Next模型上,多个视觉-语言理解基准测试中,始终优于现有的token剪枝方法。具体的性能提升数据未知,但可以确定SCOPE在保持模型性能的同时,有效减少了计算量。
🎯 应用场景
SCOPE方法可以应用于各种需要处理大量视觉信息的场景,例如图像描述、视觉问答、视频理解等。通过减少视觉tokens的数量,可以显著降低计算成本,提高模型的推理速度,使其更易于部署在资源受限的设备上。该方法还有助于提升多模态大模型的效率和可扩展性。
📄 摘要(原文)
Multimodal Large Language Models (MLLMs) typically process a large number of visual tokens, leading to considerable computational overhead, even though many of these tokens are redundant. Existing visual token pruning methods primarily focus on selecting the most salient tokens based on attention scores, resulting in the semantic incompleteness of the selected tokens. In this paper, we propose a novel visual token pruning strategy, called \textbf{S}aliency-\textbf{C}overage \textbf{O}riented token \textbf{P}runing for \textbf{E}fficient MLLMs (SCOPE), to jointly model both the saliency and coverage of the selected visual tokens to better preserve semantic completeness. Specifically, we introduce a set-coverage for a given set of selected tokens, computed based on the token relationships. We then define a token-coverage gain for each unselected token, quantifying how much additional coverage would be obtained by including it. By integrating the saliency score into the token-coverage gain, we propose our SCOPE score and iteratively select the token with the highest SCOPE score. We conduct extensive experiments on multiple vision-language understanding benchmarks using the LLaVA-1.5 and LLaVA-Next models. Experimental results demonstrate that our method consistently outperforms prior approaches. Our code is available at \href{https://github.com/kinredon/SCOPE}{https://github.com/kinredon/SCOPE}.