SigmaScale: LLM Compression with SVD-based Low-Rank Decomposition and Learned Scaling Matrices
作者: Ernests Lavrinovics, Marco Letizia, Roy Janco, Shai Segal, Johannes Bjerva, Maurizio Pierini
分类: cs.CL, cs.LG
发布日期: 2026-06-05
💡 一句话要点
提出SigmaScale以优化大语言模型压缩问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 模型压缩 奇异值分解 激活感知 深度学习
📋 核心要点
- 现有的LLM压缩方法在处理模型权重的有效秩时存在局限,导致压缩效果不理想。
- SigmaScale通过学习辅助缩放矩阵,优化权重矩阵的有效秩,从而提高压缩性能。
- 实验结果表明,SigmaScale在多个基准测试中表现出色,具有较低的困惑度和更好的压缩效果。
📝 摘要(中文)
我们提出了SigmaScale,一种通过学习辅助缩放矩阵S来辅助基于截断奇异值分解(SVD)的大语言模型(LLM)压缩的方法。SigmaScale并非通过解析推导缩放矩阵,而是优化定义对角行和列缩放变换的两个向量集,基于激活感知的压缩损失进行优化。实验表明,学习到的缩放矩阵降低了权重矩阵的有效内在秩,并且这种降低与压缩损失有很强的相关性。在Llama 3.1 8B Instruct和Qwen3-8B上的实验结果显示,SigmaScale在困惑度和零-shot基准测试中与现有的SVD压缩方法具有竞争力。通过使用学习到的激活感知变换,SigmaScale探索了一条更灵活的低秩LLM压缩路径,适应个别模型权重的结构。
🔬 方法详解
问题定义:本论文旨在解决大语言模型压缩中的有效秩问题,现有方法在处理权重矩阵时未能充分利用其结构特性,导致压缩效果不佳。
核心思路:SigmaScale的核心思想是通过学习辅助缩放矩阵来优化权重矩阵的有效秩,从而在保持模型性能的同时实现更高效的压缩。该方法通过激活感知的损失函数来指导学习过程,使得缩放矩阵能够适应模型的具体结构。
技术框架:SigmaScale的整体架构包括两个主要模块:一是学习对角行和列缩放变换的向量集,二是基于激活感知的压缩损失进行优化。整个流程从模型权重的提取开始,经过缩放矩阵的学习,最终实现压缩后的模型输出。
关键创新:最重要的创新点在于通过学习的缩放矩阵显著降低了权重矩阵的有效内在秩,这一方法与传统的解析推导方法有本质区别,能够更灵活地适应不同模型的结构。
关键设计:在设计中,论文采用了激活感知的损失函数,确保学习到的缩放矩阵能够有效降低压缩损失。此外,优化过程中使用了两个向量集来定义缩放变换,增强了模型的适应性。
🖼️ 关键图片
📊 实验亮点
在Llama 3.1 8B Instruct和Qwen3-8B的实验中,SigmaScale在困惑度和零-shot基准测试中表现出色,与现有的SVD压缩方法相比,展现了显著的竞争力,证明了其在实际应用中的有效性和优势。
🎯 应用场景
SigmaScale的研究成果在多个领域具有广泛的应用潜力,尤其是在需要降低大语言模型推理计算成本的场景中,如实时自然语言处理、智能助手和大规模文本生成等。通过优化模型的压缩性能,SigmaScale能够帮助企业和研究机构在资源有限的情况下,依然保持高效的模型性能。
📄 摘要(原文)
We present SigmaScale, a method for learning auxiliary scaling matrices $S$ to aid truncated Singular Value Decomposition (SVD) based Large Language Model (LLM) compression. Instead of deriving scaling matrices analytically, SigmaScale optimizes two sets of vectors that define diagonal row and column scaling transformations under an activation-aware compression loss. We show that learned scaling lowers the effective intrinsic rank of weight matrices, as reflected by reductions in effective-rank entropy, and that this reduction is strongly correlated with compression loss. Experiments on Llama 3.1 8B Instruct and Qwen3-8B show that SigmaScale is competitive with closely related state-of-the-art SVD-based compression methods across perplexity and zero-shot benchmarks. By using learned activation-aware transformations, SigmaScale explores a more flexible route to low-rank LLM compression by adapting to the structure of individual model weights. The advantage observed in specific tasks makes our approach a valid option for applications requiring a reduced LLM-inference computing cost.