SoLA: Leveraging Soft Activation Sparsity and Low-Rank Decomposition for Large Language Model Compression
作者: Xinhao Huang, You-Liang Huang, Zeyi Wen
分类: cs.CL, cs.AI
发布日期: 2026-04-07
💡 一句话要点
SoLA:利用软激活稀疏性和低秩分解实现大语言模型高效压缩
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型压缩 软激活稀疏性 低秩分解 无训练压缩 模型优化
📋 核心要点
- 现有大语言模型压缩方法通常需要特定硬件或昂贵的后训练,限制了其应用范围和效率。
- SoLA通过软激活稀疏性和低秩分解,无需训练即可实现大语言模型的有效压缩,降低部署成本。
- 实验表明,SoLA在保持甚至提升模型性能的同时,显著降低了模型规模,优于现有压缩方法。
📝 摘要(中文)
大型语言模型(LLMs)在各种任务中展现出令人印象深刻的能力,但数十亿级别的参数带来了部署挑战。现有方法试图减少LLMs的规模,但它们需要特殊的硬件支持或昂贵的后训练来维持模型质量。为了促进高效且经济的模型精简,我们提出了一种新颖的、无需训练的LLMs压缩方法,名为“SoLA”,它利用软激活稀疏性和低秩分解。基于我们对现代LLMs前馈网络(FFN)中激活模式的分析,SoLA可以识别并保留对推理有显著贡献的少数组件,同时通过低秩分解压缩大多数组件。为了减轻分解损失,SoLA配备了一种自适应的组件级低秩分配策略,为不同的权重矩阵分配适当的截断位置。我们在LLaMA-2-7B/13B/70B和Mistral-7B模型上进行了广泛的实验。SoLA在语言建模和下游任务准确性方面都表现出显著的改进,且无需后训练。例如,在LLaMA-2-70B模型上以30%的压缩率,SoLA超越了最先进的方法,将困惑度从6.95降低到4.44,并将下游任务准确性提高了10%。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLMs)参数量巨大,导致部署困难的问题。现有压缩方法通常需要专门的硬件支持或耗时的后训练,增加了部署成本和复杂度。因此,如何在不牺牲模型性能的前提下,高效且经济地压缩LLMs是一个关键挑战。
核心思路:SoLA的核心思路是利用LLMs前馈网络(FFN)中激活的稀疏性和权重矩阵的低秩特性。通过识别并保留对推理贡献最大的少量激活,并使用低秩分解压缩剩余部分,从而在不进行后训练的情况下实现模型压缩。自适应组件级低秩分配策略进一步优化了低秩分解,减少了信息损失。
技术框架:SoLA主要包含两个阶段:激活稀疏化和低秩分解。首先,通过分析FFN中激活的模式,确定对推理贡献最大的激活子集。然后,对剩余的权重矩阵进行低秩分解,使用较小的矩阵来近似原始矩阵。为了减轻低秩分解带来的信息损失,SoLA采用自适应组件级低秩分配策略,为不同的权重矩阵分配不同的秩,从而更好地保留重要信息。
关键创新:SoLA的关键创新在于其无需训练的压缩方法,以及软激活稀疏性和自适应组件级低秩分配策略的结合。与需要后训练的方法相比,SoLA更加高效和经济。自适应组件级低秩分配策略能够更有效地利用低秩分解,减少信息损失,从而在压缩的同时保持甚至提升模型性能。
关键设计:SoLA的关键设计包括:1) 软激活稀疏性的具体实现方式,例如使用某种阈值函数来选择重要的激活;2) 低秩分解的具体算法,例如奇异值分解(SVD);3) 自适应组件级低秩分配策略的实现细节,例如如何根据权重矩阵的特性来确定合适的秩;4) 压缩率的控制策略,例如如何平衡压缩率和模型性能。
🖼️ 关键图片
📊 实验亮点
SoLA在LLaMA-2-7B/13B/70B和Mistral-7B模型上进行了广泛的实验,结果表明,在30%的压缩率下,SoLA在语言建模和下游任务准确性方面都表现出显著的改进,且无需后训练。例如,在LLaMA-2-70B模型上,SoLA将困惑度从6.95降低到4.44,并将下游任务准确性提高了10%,超越了最先进的方法。
🎯 应用场景
SoLA具有广泛的应用前景,可用于在资源受限的设备上部署大型语言模型,例如移动设备、嵌入式系统和边缘计算设备。它还可以降低LLMs的存储和计算成本,使其更容易被研究人员和开发者使用。此外,SoLA还可以应用于其他类型的深度学习模型,以实现更高效的模型压缩。
📄 摘要(原文)
Large language models (LLMs) have demonstrated impressive capabilities across various tasks, but the billion-scale parameters pose deployment challenges. Although existing methods attempt to reduce the scale of LLMs, they require either special hardware support or expensive post-training to maintain model quality. To facilitate efficient and affordable model slimming, we propose a novel training-free compression method for LLMs, named "SoLA", which leverages \textbf{So}ft activation sparsity and \textbf{L}ow-r\textbf{A}nk decomposition. SoLA can identify and retain a minority of components significantly contributing to inference, while compressing the majority through low-rank decomposition, based on our analysis of the activation pattern in the feed-forward network (FFN) of modern LLMs. To alleviate the decomposition loss, SoLA is equipped with an adaptive component-wise low-rank allocation strategy to assign appropriate truncation positions for different weight matrices. We conduct extensive experiments on LLaMA-2-7B/13B/70B and Mistral-7B models across a variety of benchmarks. SoLA exhibits remarkable improvement in both language modeling and downstream task accuracy without post-training. For example, with a 30\% compression rate on the LLaMA-2-70B model, SoLA surpasses the state-of-the-art method by reducing perplexity from 6.95 to 4.44 and enhancing downstream task accuracy by 10\%.