SLaB: Sparse-Lowrank-Binary Decomposition for Efficient Large Language Models
作者: Ziwei Li, Yuang Ma, Yi Kang
分类: cs.LG, cs.AI
发布日期: 2026-04-07
💡 一句话要点
提出SLaB框架以解决大语言模型的高效部署问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 模型压缩 网络剪枝 稀疏矩阵 低秩矩阵 二进制矩阵 激活感知 性能提升
📋 核心要点
- 现有模型压缩方法在高压缩比下往往无法保持良好的性能,导致大语言模型的部署面临挑战。
- SLaB框架通过将线性层权重分解为稀疏、低秩和二进制矩阵,避免了重新训练并利用剪枝评分优化分解过程。
- 实验表明,SLaB在50%压缩比下减少了36%的困惑度,并在零-shot任务上提高了8.98%的准确率,表现优异。
📝 摘要(中文)
随着大语言模型(LLMs)的快速发展,其巨大的计算和内存需求带来了显著的部署挑战。尽管模型压缩技术(如网络剪枝)提供了潜在的解决方案,但现有方法在高压缩比下往往无法保持良好的性能。为此,本文提出了SLaB,一个新颖的框架,将每个线性层的权重分解为稀疏矩阵、低秩矩阵和二进制矩阵三部分。SLaB无需重新训练,并利用激活感知剪枝评分来指导分解过程。实验结果表明,SLaB在Llama系列模型上实现了最先进的性能,在50%压缩比下减少了高达36%的困惑度,并在零-shot任务上提高了高达8.98%的准确率。
🔬 方法详解
问题定义:本文旨在解决大语言模型在高压缩比下性能下降的问题。现有的模型压缩技术,如网络剪枝,往往无法在显著减少模型大小的同时保持模型的有效性和准确性。
核心思路:SLaB框架的核心思想是将每个线性层的权重分解为三种互补的矩阵:稀疏矩阵、低秩矩阵和二进制矩阵。这种分解方式不仅减少了模型的存储需求,还能在不需要重新训练的情况下优化模型性能。
技术框架:SLaB的整体架构包括三个主要模块:稀疏矩阵生成、低秩矩阵生成和二进制矩阵生成。通过激活感知剪枝评分,框架能够有效指导每个模块的分解过程,确保最终模型的性能。
关键创新:SLaB的主要创新在于其无需重新训练的特性,以及通过激活感知剪枝评分优化分解过程的能力。这与传统的模型压缩方法形成了鲜明对比,后者通常需要在压缩后进行额外的训练以恢复性能。
关键设计:在设计上,SLaB采用了特定的损失函数来平衡稀疏性、低秩性和二进制性,同时确保模型的准确性。此外,框架中的剪枝评分机制是基于激活的,能够动态调整分解策略以适应不同的模型需求。
🖼️ 关键图片
📊 实验亮点
在实验中,SLaB在Llama系列模型上展现了卓越的性能,50%压缩比下困惑度减少了36%,同时在零-shot任务上准确率提高了8.98%。这些结果表明,SLaB不仅有效地压缩了模型,还提升了其实际应用性能,具有重要的研究价值。
🎯 应用场景
SLaB框架具有广泛的应用潜力,特别是在需要高效部署大语言模型的场景中,如智能助手、自动翻译和内容生成等领域。通过显著降低模型的计算和内存需求,SLaB能够使得这些技术在资源受限的环境中得以应用,推动人工智能技术的普及与发展。
📄 摘要(原文)
The rapid growth of large language models (LLMs) presents significant deployment challenges due to their massive computational and memory demands. While model compression, such as network pruning, offers potential solutions, most existing methods often fail to maintain good performance at high compression ratios. To address this, we propose SLaB, a novel framework that decomposes each linear layer weight into three complementary components: a sparse matrix, a low-rank matrix, and a binary matrix. SLaB eliminates the need for retraining and leverages activation-aware pruning scores to guide the decomposition process. Experiments on Llama-family models demonstrate that SLaB achieves state-of-the-art performance, reducing perplexity by up to 36% compared to existing methods at 50% compression and improving accuracy by up to 8.98% over the baseline on zero-shot tasks.