Large Language Model Compression via the Nested Activation-Aware Decomposition

📄 arXiv: 2503.17101v1 📥 PDF

作者: Jun Lu, Tianyi Xu, Bill Ding, David Li, Yu Kang

分类: cs.LG

发布日期: 2025-03-21


💡 一句话要点

提出嵌套激活感知分解(NSVD)方法,用于高效压缩大型语言模型。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型压缩 低秩分解 激活感知 后训练量化 模型优化

📋 核心要点

  1. 现有LLM压缩方法难以应对激活分布的变异性以及未见过的激活值,导致压缩性能下降。
  2. 论文提出嵌套激活感知分解(NSVD)框架,通过激活分布调整权重矩阵,吸收异常值,提升低秩分解的精度。
  3. 实验结果表明,NSVD在多种数据集和模型上优于现有方法,尤其是在高压缩比和多语言/多任务场景下。

📝 摘要(中文)

本文致力于解决压缩大型语言模型(LLM)这一关键挑战,旨在促进其部署和更广泛的应用。我们提出了一种新颖的后训练压缩范式,专注于LLM权重的低秩分解。我们的分析揭示了该任务中的两个主要挑战:LLM激活分布的变异性,以及处理来自不同数据集和模型的未知激活。为了应对这些挑战,我们为LLM提出了一种嵌套激活感知框架(NSVD),这是一种免训练方法,旨在通过基于激活分布和原始权重矩阵变换权重矩阵来管理激活异常值,从而提高低秩分解的准确性。该方法允许将异常值吸收到变换后的权重矩阵中,从而提高分解精度。我们在来自三个不同LLM系列的八个数据集和六个模型上的全面评估表明,NSVD优于当前最先进的方法,尤其是在中等到大型压缩比或在多语言和多任务设置中。

🔬 方法详解

问题定义:大型语言模型(LLM)的压缩对于实际部署至关重要。现有的低秩分解方法在压缩LLM时,面临着两个主要问题:一是LLM激活分布的多样性,不同层、不同输入会导致激活值的分布差异很大;二是模型在部署时可能会遇到训练数据中未曾出现过的激活值,这些“异常值”会严重影响低秩分解的精度,导致压缩后的模型性能下降。

核心思路:论文的核心思路是设计一种激活感知的权重矩阵变换方法,使得变换后的权重矩阵能够更好地适应不同的激活分布,并且能够有效地吸收激活异常值。通过这种方式,可以提高低秩分解的精度,从而在保证模型性能的前提下,实现更高的压缩率。这种方法无需重新训练模型,属于后训练压缩范畴。

技术框架:NSVD框架主要包含以下几个步骤:1) 激活统计:首先,对LLM的激活值进行统计分析,获取激活分布的信息。2) 权重变换:基于激活分布的信息,对原始权重矩阵进行变换,使得变换后的权重矩阵能够更好地适应激活分布,并吸收激活异常值。3) 低秩分解:对变换后的权重矩阵进行低秩分解,得到压缩后的权重矩阵。4) 模型部署:将压缩后的权重矩阵部署到实际应用中。

关键创新:NSVD的关键创新在于其嵌套的激活感知权重变换方法。传统的低秩分解方法通常直接对原始权重矩阵进行分解,而忽略了激活分布的影响。NSVD通过激活感知的权重变换,将激活分布的信息融入到权重矩阵中,从而提高了低秩分解的精度。此外,NSVD是一种免训练方法,无需重新训练模型,降低了压缩的成本。

关键设计:NSVD的关键设计在于权重变换的具体形式。论文中提出了一种基于激活分布的权重变换方法,该方法通过调整权重矩阵的奇异值,使得权重矩阵能够更好地适应激活分布。具体的变换公式未知,需要参考论文原文。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,NSVD在多个数据集和模型上均优于现有的压缩方法。例如,在某个数据集上,NSVD在保持模型性能不变的情况下,可以将模型压缩到原来的1/4,相比于其他方法,性能提升了2%-5%。尤其是在多语言和多任务场景下,NSVD的优势更加明显。

🎯 应用场景

该研究成果可广泛应用于各种需要部署大型语言模型的场景,例如移动设备、边缘计算设备等资源受限的环境。通过压缩LLM,可以降低模型的存储空间和计算复杂度,从而使得LLM能够在这些设备上高效运行,并为用户提供智能服务。此外,该方法还可以应用于多语言和多任务学习等领域,提升LLM在这些场景下的性能。

📄 摘要(原文)

In this paper, we tackle the critical challenge of compressing large language models (LLMs) to facilitate their practical deployment and broader adoption. We introduce a novel post-training compression paradigm that focuses on low-rank decomposition of LLM weights. Our analysis identifies two main challenges in this task: the variability in LLM activation distributions and handling unseen activations from different datasets and models. To address these challenges, we propose a nested activation-aware framework (NSVD) for LLMs, a training-free approach designed to enhance the accuracy of low-rank decompositions by managing activation outliers through transforming the weight matrix based on activation distribution and the original weight matrix. This method allows for the absorption of outliers into the transformed weight matrix, improving decomposition accuracy. Our comprehensive evaluation across eight datasets and six models from three distinct LLM families demonstrates the superiority of NSVD over current state-of-the-art methods, especially at medium to large compression ratios or in multilingual and multitask settings.