SoLA: Leveraging Soft Activation Sparsity and Low-Rank Decomposition for Large Language Model Compression

作者: Xinhao Huang, You-Liang Huang, Zeyi Wen

分类: cs.CL, cs.AI

发布日期: 2026-04-07

💡 一句话要点

SoLA：利用软激活稀疏性和低秩分解实现大语言模型高效压缩

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型压缩 软激活稀疏性 低秩分解 无训练压缩 模型优化

📋 核心要点

现有大语言模型压缩方法通常需要特定硬件或昂贵的后训练，限制了其应用范围和效率。
SoLA通过软激活稀疏性和低秩分解，无需训练即可实现大语言模型的有效压缩，降低部署成本。
实验表明，SoLA在保持甚至提升模型性能的同时，显著降低了模型规模，优于现有压缩方法。

📝 摘要（中文）

大型语言模型（LLMs）在各种任务中展现出令人印象深刻的能力，但数十亿级别的参数带来了部署挑战。现有方法试图减少LLMs的规模，但它们需要特殊的硬件支持或昂贵的后训练来维持模型质量。为了促进高效且经济的模型精简，我们提出了一种新颖的、无需训练的LLMs压缩方法，名为“SoLA”，它利用软激活稀疏性和低秩分解。基于我们对现代LLMs前馈网络（FFN）中激活模式的分析，SoLA可以识别并保留对推理有显著贡献的少数组件，同时通过低秩分解压缩大多数组件。为了减轻分解损失，SoLA配备了一种自适应的组件级低秩分配策略，为不同的权重矩阵分配适当的截断位置。我们在LLaMA-2-7B/13B/70B和Mistral-7B模型上进行了广泛的实验。SoLA在语言建模和下游任务准确性方面都表现出显著的改进，且无需后训练。例如，在LLaMA-2-70B模型上以30%的压缩率，SoLA超越了最先进的方法，将困惑度从6.95降低到4.44，并将下游任务准确性提高了10%。

🔬 方法详解

问题定义：论文旨在解决大型语言模型（LLMs）参数量巨大，导致部署困难的问题。现有压缩方法通常需要专门的硬件支持或耗时的后训练，增加了部署成本和复杂度。因此，如何在不牺牲模型性能的前提下，高效且经济地压缩LLMs是一个关键挑战。

核心思路：SoLA的核心思路是利用LLMs前馈网络（FFN）中激活的稀疏性和权重矩阵的低秩特性。通过识别并保留对推理贡献最大的少量激活，并使用低秩分解压缩剩余部分，从而在不进行后训练的情况下实现模型压缩。自适应组件级低秩分配策略进一步优化了低秩分解，减少了信息损失。

技术框架：SoLA主要包含两个阶段：激活稀疏化和低秩分解。首先，通过分析FFN中激活的模式，确定对推理贡献最大的激活子集。然后，对剩余的权重矩阵进行低秩分解，使用较小的矩阵来近似原始矩阵。为了减轻低秩分解带来的信息损失，SoLA采用自适应组件级低秩分配策略，为不同的权重矩阵分配不同的秩，从而更好地保留重要信息。

关键创新：SoLA的关键创新在于其无需训练的压缩方法，以及软激活稀疏性和自适应组件级低秩分配策略的结合。与需要后训练的方法相比，SoLA更加高效和经济。自适应组件级低秩分配策略能够更有效地利用低秩分解，减少信息损失，从而在压缩的同时保持甚至提升模型性能。

关键设计：SoLA的关键设计包括：1) 软激活稀疏性的具体实现方式，例如使用某种阈值函数来选择重要的激活；2) 低秩分解的具体算法，例如奇异值分解（SVD）；3) 自适应组件级低秩分配策略的实现细节，例如如何根据权重矩阵的特性来确定合适的秩；4) 压缩率的控制策略，例如如何平衡压缩率和模型性能。

🖼️ 关键图片

📊 实验亮点

SoLA在LLaMA-2-7B/13B/70B和Mistral-7B模型上进行了广泛的实验，结果表明，在30%的压缩率下，SoLA在语言建模和下游任务准确性方面都表现出显著的改进，且无需后训练。例如，在LLaMA-2-70B模型上，SoLA将困惑度从6.95降低到4.44，并将下游任务准确性提高了10%，超越了最先进的方法。

🎯 应用场景

SoLA具有广泛的应用前景，可用于在资源受限的设备上部署大型语言模型，例如移动设备、嵌入式系统和边缘计算设备。它还可以降低LLMs的存储和计算成本，使其更容易被研究人员和开发者使用。此外，SoLA还可以应用于其他类型的深度学习模型，以实现更高效的模型压缩。

📄 摘要（原文）

Large language models (LLMs) have demonstrated impressive capabilities across various tasks, but the billion-scale parameters pose deployment challenges. Although existing methods attempt to reduce the scale of LLMs, they require either special hardware support or expensive post-training to maintain model quality. To facilitate efficient and affordable model slimming, we propose a novel training-free compression method for LLMs, named "SoLA", which leverages \textbf{So}ft activation sparsity and \textbf{L}ow-r\textbf{A}nk decomposition. SoLA can identify and retain a minority of components significantly contributing to inference, while compressing the majority through low-rank decomposition, based on our analysis of the activation pattern in the feed-forward network (FFN) of modern LLMs. To alleviate the decomposition loss, SoLA is equipped with an adaptive component-wise low-rank allocation strategy to assign appropriate truncation positions for different weight matrices. We conduct extensive experiments on LLaMA-2-7B/13B/70B and Mistral-7B models across a variety of benchmarks. SoLA exhibits remarkable improvement in both language modeling and downstream task accuracy without post-training. For example, with a 30\% compression rate on the LLaMA-2-70B model, SoLA surpasses the state-of-the-art method by reducing perplexity from 6.95 to 4.44 and enhancing downstream task accuracy by 10\%.

SoLA: Leveraging Soft Activation Sparsity and Low-Rank Decomposition for Large Language Model Compression

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理