QAPruner: Quantization-Aware Vision Token Pruning for Multimodal Large Language Models
作者: Xinhao Wang, Zhonyu Xia, Zhiwei Lin, Zhe Li, Yongtao Wang
分类: cs.CV, cs.AI
发布日期: 2026-04-06
💡 一句话要点
QAPruner:面向多模态大语言模型的量化感知视觉Token剪枝
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态大语言模型 视觉Token剪枝 后训练量化 量化感知 模型压缩
📋 核心要点
- 现有方法通常独立优化后训练量化(PTQ)和视觉token剪枝,忽略了它们之间的相互影响。
- 提出QAPruner框架,通过结合量化误差和异常值强度,实现量化感知的视觉token剪枝。
- 实验表明,QAPruner在激进剪枝率下显著提升了MLLM的准确率,甚至超越了无剪枝的密集量化。
📝 摘要(中文)
多模态大语言模型(MLLMs)展现了强大的推理能力,但其高昂的计算和内存成本阻碍了在资源受限环境中的部署。后训练量化(PTQ)和视觉token剪枝是标准的压缩技术,但通常被视为独立的优化。本文表明,这两种技术是强耦合的:将基于语义的token剪枝应用于PTQ优化的MLLM,会丢弃对数值稳定性至关重要的激活异常值,从而加剧低比特率(例如W4A4)下的量化误差。为了解决这个问题,我们提出了一个量化感知的视觉token剪枝框架。我们的方法引入了一种轻量级的混合敏感度指标,该指标结合了模拟的分组量化误差和异常值强度。通过将该指标与标准的语义相关性分数相结合,该方法保留了语义信息丰富且对量化具有鲁棒性的token。在标准LLaVA架构上的实验表明,我们的方法始终优于朴素的集成基线。在仅保留12.5%视觉token的激进剪枝率下,我们的框架比基线提高了2.24%的准确率,甚至超过了没有剪枝的密集量化。据我们所知,这是第一个显式地共同优化视觉token剪枝和PTQ以实现精确的低比特MLLM推理的方法。
🔬 方法详解
问题定义:现有的多模态大语言模型压缩方法,通常将后训练量化(PTQ)和视觉token剪枝作为独立的优化步骤。然而,直接将基于语义的token剪枝应用于PTQ后的模型,会导致对量化数值稳定性至关重要的激活异常值被丢弃,从而显著降低低比特量化模型的性能。因此,如何协同优化token剪枝和量化,以实现更高效的MLLM压缩,是一个亟待解决的问题。
核心思路:论文的核心思路是设计一种量化感知的token剪枝方法,在剪枝过程中同时考虑token的语义重要性和对量化的影响。通过保留对量化更鲁棒且语义信息丰富的token,来缓解因token剪枝导致的量化误差增加。这种方法旨在找到一个token子集,既能减少计算量,又能保证量化后的模型性能。
技术框架:QAPruner框架主要包含以下几个步骤:1) 首先,对模型进行PTQ量化。2) 然后,计算每个token的混合敏感度指标,该指标结合了模拟分组量化误差和异常值强度。3) 接下来,将该敏感度指标与标准的语义相关性分数相结合,得到最终的token重要性评分。4) 最后,根据token重要性评分进行剪枝,保留最重要的token。
关键创新:QAPruner的关键创新在于提出了一个轻量级的混合敏感度指标,该指标能够同时评估token的语义重要性和对量化的影响。通过模拟分组量化误差和考虑异常值强度,该指标能够更准确地识别出对量化更鲁棒的token。此外,QAPruner是第一个显式地共同优化视觉token剪枝和PTQ以实现精确的低比特MLLM推理的方法。
关键设计:混合敏感度指标是QAPruner的关键设计之一。该指标通过计算token激活值在模拟分组量化后的误差,来评估token对量化的影响。同时,该指标还考虑了token激活值的异常程度,以保留对量化数值稳定性至关重要的异常值。具体来说,该指标可以表示为量化误差和异常值强度的加权和,权重参数可以根据实际情况进行调整。
🖼️ 关键图片
📊 实验亮点
实验结果表明,QAPruner在LLaVA架构上取得了显著的性能提升。在仅保留12.5%的视觉token的激进剪枝率下,QAPruner比基线方法提高了2.24%的准确率,甚至超过了没有剪枝的密集量化模型。这表明QAPruner能够有效地协同优化token剪枝和量化,从而实现更高效的MLLM压缩。
🎯 应用场景
QAPruner技术可应用于各种资源受限的场景,例如移动设备、嵌入式系统和边缘计算设备。通过降低多模态大语言模型的计算和内存成本,QAPruner能够使这些模型在这些平台上更高效地运行,从而实现更智能的图像理解、视频分析和人机交互等应用。
📄 摘要(原文)
Multimodal Large Language Models (MLLMs) have shown strong reasoning ability, but their high computational and memory costs hinder deployment in resource-constrained settings. While Post-Training Quantization (PTQ) and vision token pruning are standard compression techniques, they are usually treated as independent optimizations. In this paper, we show that these two techniques are strongly coupled: naively applying semantic-based token pruning to PTQ-optimized MLLMs can discard activation outliers that are important for numerical stability and thus worsen quantization errors in low-bit regimes (\textit{e.g.}, W4A4). To address this issue, we propose a quantization-aware vision token pruning framework. Our method introduces a lightweight hybrid sensitivity metric that combines simulated group-wise quantization error with outlier intensity. By combining this metric with standard semantic relevance scores, the method retains tokens that are both semantically informative and robust to quantization. Experiments on standard LLaVA architectures show that our method consistently outperforms naive integration baselines. At an aggressive pruning ratio that retains only 12.5\% of visual tokens, our framework improves accuracy by 2.24\% over the baseline and even surpasses dense quantization without pruning. To the best of our knowledge, this is the first method that explicitly co-optimizes vision token pruning and PTQ for accurate low-bit MLLM inference.