SPQ: An Ensemble Technique for Large Language Model Compression
作者: Jiamin Yao, Eren Gultepe
分类: cs.CL
发布日期: 2026-02-20
备注: Accepted to LREC 2026 Main Conference
🔗 代码/项目: GITHUB
💡 一句话要点
SPQ:一种用于大语言模型压缩的集成技术,在内存受限环境下实现高效部署。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型压缩 奇异值分解 模型剪枝 模型量化 集成学习 低秩分解 推理加速
📋 核心要点
- 现有大语言模型体积庞大,部署在资源受限设备上存在挑战,需要有效的压缩技术。
- SPQ结合奇异值分解、剪枝和量化三种互补技术,针对模型不同层面的冗余进行压缩。
- 实验表明,SPQ在压缩LLaMA-2-7B模型时,能显著降低内存占用,同时保持甚至提升模型性能。
📝 摘要(中文)
本研究提出了一种名为SPQ(SVD-Pruning-Quantization)的集成技术,用于大语言模型(LLM)压缩。该方法结合了方差保留奇异值分解(SVD)、基于激活的剪枝和训练后线性量化。每个组件针对不同的低效来源:i) 剪枝移除MLP层中的冗余神经元,ii) SVD将注意力投影分解为紧凑的低秩因子,iii) 8位量化统一压缩所有线性层。在匹配的压缩率下,SPQ在困惑度方面优于单独的方法(仅SVD、仅剪枝或仅量化),证明了结合互补技术的优势。应用于LLaMA-2-7B,SPQ实现了高达75%的内存减少,同时保持或提高了困惑度(例如,WikiText-2从5.47到4.91),并保留了在C4、TruthfulQA和GSM8K等下游基准测试中的准确性。与GPTQ和SparseGPT等强基线相比,SPQ提供了具有竞争力的困惑度和准确性,同时使用更少的内存(GPTQ为7.16 GB,而SPQ为6.86 GB)。此外,SPQ提高了相对于GPTQ的推理吞吐量,实现了高达1.9倍的加速,进一步增强了其在实际部署中的实用性。SPQ通过层感知和互补压缩技术实现的鲁棒压缩效果,可能为在内存受限环境中实际部署LLM提供可能。
🔬 方法详解
问题定义:大语言模型(LLM)的巨大规模给部署带来了挑战,尤其是在内存受限的环境中。现有的压缩方法,如单独使用SVD、剪枝或量化,可能无法充分利用模型中的冗余,导致压缩效果不佳或性能下降。
核心思路:SPQ的核心思路是结合多种互补的压缩技术,针对模型不同层面的冗余进行压缩。通过SVD降低注意力机制的维度,剪枝去除冗余神经元,量化减少参数的存储空间,从而实现更高效的压缩。这种集成方法能够更好地平衡压缩率和模型性能。
技术框架:SPQ包含三个主要阶段:1) 方差保留奇异值分解(SVD):应用于注意力机制中的投影矩阵,通过低秩分解减少参数量。2) 基于激活的剪枝:根据神经元的激活值重要性,移除MLP层中不重要的神经元。3) 训练后线性量化:将所有线性层的权重和激活值量化为8位整数,进一步压缩模型大小。这三个阶段依次执行,共同实现模型的压缩。
关键创新:SPQ的关键创新在于其集成了三种互补的压缩技术,并针对LLM的不同结构特点进行优化。与单独使用某种压缩技术相比,SPQ能够更全面地去除模型中的冗余,从而在相同的压缩率下获得更好的性能。此外,SPQ采用层感知的压缩策略,根据不同层的特点选择合适的压缩方法和参数。
关键设计:SVD中,选择保留一定比例的方差,以保证模型性能。剪枝过程中,基于神经元的激活值来评估其重要性,并设定剪枝比例。量化采用训练后线性量化,将权重和激活值量化为8位整数。这些参数的设置需要根据具体的模型和数据集进行调整,以达到最佳的压缩效果。
🖼️ 关键图片
📊 实验亮点
SPQ在LLaMA-2-7B模型上实现了高达75%的内存减少,同时在WikiText-2数据集上将困惑度从5.47降低到4.91。与GPTQ相比,SPQ在保持竞争力的困惑度和准确性的同时,使用了更少的内存(6.86 GB vs. 7.16 GB),并实现了高达1.9倍的推理加速。这些结果表明SPQ是一种高效且实用的LLM压缩技术。
🎯 应用场景
SPQ技术可广泛应用于大语言模型的部署,尤其是在移动设备、边缘计算等内存受限的环境中。通过降低模型大小和提高推理速度,SPQ使得LLM能够在更多场景下应用,例如智能助手、自然语言处理应用等。未来,SPQ有望进一步发展,支持更高级的压缩技术,并应用于更大规模的模型。
📄 摘要(原文)
This study presents an ensemble technique, SPQ (SVD-Pruning-Quantization), for large language model (LLM) compression that combines variance-retained singular value decomposition (SVD), activation-based pruning, and post-training linear quantization. Each component targets a different source of inefficiency: i) pruning removes redundant neurons in MLP layers, ii) SVD reduces attention projections into compact low-rank factors, iii) and 8-bit quantization uniformly compresses all linear layers. At matched compression ratios, SPQ outperforms individual methods (SVD-only, pruning-only, or quantization-only) in perplexity, demonstrating the benefit of combining complementary techniques. Applied to LLaMA-2-7B, SPQ achieves up to 75% memory reduction while maintaining or improving perplexity (e.g., WikiText-2 5.47 to 4.91) and preserving accuracy on downstream benchmarks such as C4, TruthfulQA, and GSM8K. Compared to strong baselines like GPTQ and SparseGPT, SPQ offers competitive perplexity and accuracy while using less memory (6.86 GB vs. 7.16 GB for GPTQ). Moreover, SPQ improves inference throughput over GPTQ, achieving up to a 1.9x speedup, which further enhances its practicality for real-world deployment. The effectiveness of SPQ's robust compression through layer-aware and complementary compression techniques may provide practical deployment of LLMs in memory-constrained environments. Code is available at: https://github.com/JiaminYao/SPQ_LLM_Compression/