MGAA: Multi-Granular Adaptive Allocation fof Low-Rank Compression of LLMs
作者: Guangyan Li, Yongqiang Tang, Wensheng Zhang
分类: cs.LG, cs.AI
发布日期: 2025-07-04
备注: 13 pages, 8 figures
💡 一句话要点
提出MGAA:一种多粒度自适应分配方法,用于LLM的低秩压缩。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 模型压缩 低秩近似 参数分配 大型语言模型 多粒度学习
📋 核心要点
- 现有低秩近似压缩方法通常对所有权重矩阵采用统一压缩率,忽略了它们对模型性能的不同影响。
- MGAA基于子层输入输出的余弦相似性和权重矩阵的能量分布,自适应地在层间和层内分配压缩率。
- 实验表明,MGAA在多个LLM和多模态模型上表现出卓越的性能,无需特定任务的评估。
📝 摘要(中文)
大型语言模型(LLM)的巨大参数规模使得模型压缩成为研究热点,旨在减轻部署和推理期间的计算资源需求。作为一种有前景的方向,低秩近似技术已经取得了显著的成就。然而,不幸的是,绝大多数低秩近似压缩研究通常对所有权重矩阵应用统一的压缩率,而忽略了它们对模型性能的固有差异影响。尽管最近的一些工作试图采用启发式搜索策略来实现最佳参数分配,但这些策略在计算上效率低下,并且在LLM时代失去了泛化能力。在这项研究中,我们提出了一种新颖的参数多粒度自适应分配(MGAA)方法,该方法可以在压缩过程中自适应地在子层之间和子层内部分配参数,而无需特定于任务的评估。MGAA由两个组件组成:1)在不同的子层之间,它基于输入和输出之间的余弦相似性来分配压缩率,从而允许在具有不同重要程度的子层中进行更定制的压缩;2)在每个子层内部,它基于权重矩阵的能量分布特征为其分配不同的压缩率,从而确保一致的能量保持率,同时优化压缩效率。对多个LLM骨干模型和基准数据集进行的MGAA全面评估证明了其卓越的性能。此外,我们将MGAA应用于多模态模型LLaVA,表现出显著的性能改进。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)低秩压缩中参数分配不合理的问题。现有方法通常对所有权重矩阵采用统一的压缩率,忽略了不同层和层内不同权重矩阵对模型性能的差异化影响。启发式搜索策略虽然可以优化参数分配,但计算成本高昂且泛化能力差。
核心思路:论文的核心思路是提出一种多粒度自适应分配(MGAA)方法,该方法能够根据不同子层的输入输出相似性和子层内权重矩阵的能量分布,自适应地分配压缩率。这种方法旨在在保持模型性能的同时,最大化压缩效率。
技术框架:MGAA方法包含两个主要组件:1) 层间压缩率分配:基于子层输入和输出之间的余弦相似性来确定压缩率,重要性高的子层分配较低的压缩率,反之亦然。2) 层内压缩率分配:基于权重矩阵的能量分布来确定压缩率,确保在压缩过程中保持一致的能量保持率。整体流程无需特定任务的评估,可以直接应用于不同的LLM。
关键创新:MGAA的关键创新在于其多粒度的自适应参数分配策略。与现有方法采用的统一压缩率或计算成本高昂的启发式搜索相比,MGAA能够根据模型自身的特性,在层间和层内进行精细化的压缩率分配,从而在保持模型性能的同时,提高压缩效率。
关键设计:在层间压缩率分配中,余弦相似性被用作衡量子层重要性的指标。在层内压缩率分配中,能量分布用于指导权重矩阵的压缩,目标是保持压缩前后能量的比例一致。具体的压缩率计算公式和能量保持率的设定是需要根据具体模型和数据集进行调整的关键参数。
🖼️ 关键图片
📊 实验亮点
MGAA在多个LLM骨干模型和基准数据集上进行了全面评估,结果表明其性能优于现有方法。此外,MGAA应用于多模态模型LLaVA时,也表现出显著的性能提升,验证了其在不同模型架构上的泛化能力。具体性能数据和对比基线在论文中进行了详细展示。
🎯 应用场景
MGAA方法可广泛应用于各种大型语言模型的压缩,从而降低模型部署和推理的计算资源需求。该方法尤其适用于资源受限的场景,如移动设备和边缘计算。通过高效的模型压缩,可以促进LLM在更多实际应用中的部署,例如智能助手、自然语言处理服务和多模态应用。
📄 摘要(原文)
The enormous parameter scale of large language models (LLMs) has made model compression a research hotspot, which aims to alleviate computational resource demands during deployment and inference. As a promising direction, low-rank approximation technique has made remarkable achievements. Nevertheless, unfortunately, the vast majority of studies to low-rank approximation compression generally apply uniform compression ratios across all weight matrices, while disregarding their inherently differentiated impacts on the model's performance. Although a few recent work attempts to employ heuristic search strategies to achieve the optimal parameter allocation, such strategies are computationally inefficient and lose the generalization ability in the era of LLMs. In this study, we propose a novel parameter Multi-Granular Adaptive Allocation (MGAA) method, which can adaptively allocate parameters between and within sublayers without task-specific evaluations in the compression process. MGAA consists of two components: 1) Among different sublayers, it assigns compression ratios based on their cosine similarity between inputs and outputs, allowing for a more tailored compression in sublayers with varying degrees of importance, and 2) Within each sublayer, it allocates different compression ratios to weight matrices based on their energy distribution characteristics, ensuring a consistent energy retention ratio while optimizing compression efficiency. Comprehensive evaluations of MGAA across multiple LLMs backbone models and benchmark datasets demonstrate its superior performance. Additionally, we apply our MGAA to multimodal model LLaVA, exhibiting remarkable performance improvements.