CASP: Compression of Large Multimodal Models Based on Attention Sparsity
作者: Mohsen Gholami, Mohammad Akbari, Kevin Cannons, Yong Zhang
分类: cs.CV
发布日期: 2025-03-07
💡 一句话要点
CASP:基于注意力稀疏性的多模态大模型压缩技术
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态模型压缩 注意力稀疏性 低秩分解 量化 模型优化
📋 核心要点
- 现有方法对多模态大模型的低比特压缩研究不足,未能充分利用多模态数据中的冗余信息。
- CASP方法利用注意力矩阵的稀疏性来指导Query和Key权重矩阵的压缩,降低压缩误差。
- 实验结果表明,CASP能够显著提升现有2比特量化方法的性能,平均提升达21%。
📝 摘要(中文)
本文提出了一种针对大型多模态模型(LMMs)的极端压缩技术CASP。虽然之前的研究已经探索了量化作为大型语言模型(LLMs)的一种有效的后训练压缩方法,但多模态模型的低比特压缩仍未被充分研究。多模态模型中输入的冗余性导致了高度稀疏的注意力矩阵。我们在理论上和实验上证明了注意力矩阵的稀疏性限制了Query和Key权重矩阵的压缩误差。基于此,我们引入了一种针对LMMs的模型压缩技术CASP。我们的方法对Query和Key权重矩阵执行数据感知的低秩分解,然后基于最佳比特分配过程对所有层进行量化。CASP与任何量化技术兼容,并在图像和视频语言基准测试中,将最先进的2比特量化方法(AQLM和QuIP#)的性能平均提高了21%。
🔬 方法详解
问题定义:现有的大型多模态模型参数量巨大,计算和存储成本高昂,难以部署在资源受限的设备上。虽然已经有一些针对大型语言模型的压缩方法,例如量化,但是这些方法在多模态模型上的效果并不理想。多模态模型中存在大量的冗余信息,如何有效地利用这些冗余信息进行压缩是一个挑战。
核心思路:论文的核心思路是利用多模态模型中注意力矩阵的稀疏性来指导Query和Key权重矩阵的压缩。注意力矩阵的稀疏性表明,模型在处理多模态数据时,只需要关注少部分的关键信息。因此,可以通过低秩分解和量化等方法来压缩Query和Key权重矩阵,同时保持模型性能。
技术框架:CASP方法主要包含两个阶段:1) 数据感知的低秩分解:对Query和Key权重矩阵进行低秩分解,以减少参数量。2) 基于最佳比特分配的量化:对所有层进行量化,并根据每一层的特性分配不同的比特数,以最小化量化误差。该方法可以与现有的量化技术相结合,进一步提高压缩率。
关键创新:论文的关键创新在于发现了注意力矩阵的稀疏性与Query和Key权重矩阵的压缩误差之间的关系,并基于此提出了一种新的模型压缩方法。该方法能够有效地利用多模态数据中的冗余信息,从而实现更高的压缩率和更好的模型性能。
关键设计:在低秩分解阶段,论文采用了一种数据感知的方法来确定低秩分解的秩。在量化阶段,论文采用了一种基于最佳比特分配的策略,根据每一层的特性分配不同的比特数。具体来说,论文使用了一种基于梯度的搜索算法来寻找最佳的比特分配方案。此外,CASP可以与AQLM和QuIP#等现有量化方法结合使用。
🖼️ 关键图片
📊 实验亮点
实验结果表明,CASP能够显著提升现有2比特量化方法的性能。在图像和视频语言基准测试中,CASP将AQLM和QuIP#的性能平均提高了21%。这表明CASP能够有效地利用多模态数据中的冗余信息,从而实现更高的压缩率和更好的模型性能。
🎯 应用场景
CASP技术可应用于各种需要部署大型多模态模型的场景,例如移动设备上的图像/视频理解、自动驾驶中的环境感知、智能客服中的多模态交互等。通过降低模型的大小和计算复杂度,CASP能够使这些应用在资源受限的平台上运行,并提高用户体验。未来,该技术有望推动多模态人工智能在更广泛领域的应用。
📄 摘要(原文)
In this work, we propose an extreme compression technique for Large Multimodal Models (LMMs). While previous studies have explored quantization as an efficient post-training compression method for Large Language Models (LLMs), low-bit compression for multimodal models remains under-explored. The redundant nature of inputs in multimodal models results in a highly sparse attention matrix. We theoretically and experimentally demonstrate that the attention matrix's sparsity bounds the compression error of the Query and Key weight matrices. Based on this, we introduce CASP, a model compression technique for LMMs. Our approach performs a data-aware low-rank decomposition on the Query and Key weight matrix, followed by quantization across all layers based on an optimal bit allocation process. CASP is compatible with any quantization technique and enhances state-of-the-art 2-bit quantization methods (AQLM and QuIP#) by an average of 21% on image- and video-language benchmarks.