Pivoting Factorization: A Compact Meta Low-Rank Representation of Sparsity for Efficient Inference in Large Language Models
作者: Jialin Zhao, Yingtao Zhang, Carlo Vittorio Cannistraci
分类: cs.LG
发布日期: 2025-01-31 (更新: 2025-08-13)
备注: ICML 2025
🔗 代码/项目: GITHUB
💡 一句话要点
提出PIFA:一种紧凑的低秩表示方法,用于加速大语言模型推理。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 模型压缩 低秩剪枝 推理加速 无损压缩
📋 核心要点
- 现有低秩剪枝方法在压缩大语言模型时,性能损失较大,难以达到与半结构化剪枝相当的水平。
- PIFA通过识别线性独立的枢轴行,并将其他行表示为枢轴行的线性组合,实现对低秩表示的紧凑化。
- MPIFA结合PIFA和无需重训练的重建方法,在GPU上实现了与半结构化剪枝相当甚至更好的性能和效率。
📝 摘要(中文)
大型语言模型(LLM)的快速发展推动了对有效模型压缩技术的需求,以降低内存和计算成本。低秩剪枝因其在所有密度下的GPU兼容性而备受关注。然而,低秩剪枝在性能上难以与半结构化剪枝相媲美,在相似密度下通常会使困惑度加倍。本文提出了一种新颖的无损元低秩表示方法——Pivoting Factorization (PIFA),它以无监督的方式学习任何低秩表示的紧凑形式,有效地消除了冗余信息。PIFA识别枢轴行(线性独立行),并将非枢轴行表示为线性组合,在维度50%的秩下,实现了比低秩层额外节省24.2%的内存和快24.6%的推理速度。为了减轻低秩剪枝引起的性能下降,我们引入了一种新颖的、无需重新训练的重建方法,该方法最大限度地减少了误差累积(M)。MPIFA将M和PIFA结合到一个端到端框架中,显著优于现有的低秩剪枝方法,并实现了与半结构化剪枝相当的性能,同时在GPU效率和兼容性方面超过了它。我们的代码可在https://github.com/biomedical-cybernetics/pivoting-factorization 获取。
🔬 方法详解
问题定义:论文旨在解决低秩剪枝在大语言模型压缩中性能损失大的问题。现有低秩剪枝方法虽然GPU兼容性好,但在相同压缩率下,性能远不如半结构化剪枝,导致实际应用受限。
核心思路:论文的核心思路是,现有的低秩表示中存在大量冗余信息,可以通过寻找线性无关的“枢轴行”来表示整个矩阵,从而实现更紧凑的表示。此外,通过误差最小化的重建方法,可以进一步提升压缩后的模型性能。
技术框架:MPIFA框架包含两个主要模块:1) Pivoting Factorization (PIFA):无监督地学习低秩表示的紧凑形式,识别枢轴行,并将非枢轴行表示为枢轴行的线性组合。2) Reconstruction Method (M):一种无需重新训练的重建方法,旨在最小化低秩剪枝带来的误差累积,提升模型性能。整个流程是先进行低秩分解,然后使用PIFA进行压缩,最后使用M进行重建。
关键创新:论文的关键创新在于提出了PIFA,这是一种无损的元低秩表示方法,能够以无监督的方式学习任何低秩表示的紧凑形式。与传统的低秩分解方法不同,PIFA专注于消除冗余信息,而不是简单地降低秩。此外,无需重训练的重建方法M也是一个创新点,它能够在不增加训练成本的前提下,有效提升压缩模型的性能。
关键设计:PIFA的关键设计在于枢轴行的选择算法,需要高效地找到线性无关的行集合。重建方法M的关键在于误差最小化策略,需要设计合适的损失函数来衡量重建误差。论文中未明确给出枢轴行选择和误差最小化的具体算法细节,这些可能是未来研究的方向。
🖼️ 关键图片
📊 实验亮点
实验结果表明,PIFA在维度50%的秩下,比低秩层额外节省24.2%的内存,并加速24.6%的推理速度。MPIFA显著优于现有的低秩剪枝方法,并实现了与半结构化剪枝相当的性能,同时在GPU效率和兼容性方面超过了它。这些结果表明,MPIFA是一种非常有竞争力的模型压缩方法。
🎯 应用场景
该研究成果可广泛应用于大语言模型的压缩和加速,特别是在资源受限的场景下,如移动设备、边缘计算等。通过PIFA和MPIFA,可以在保证模型性能的前提下,显著降低模型大小和推理延迟,从而使得大语言模型能够部署在更广泛的平台上,并服务于更多的用户。
📄 摘要(原文)
The rapid growth of Large Language Models has driven demand for effective model compression techniques to reduce memory and computation costs. Low-rank pruning has gained attention for its GPU compatibility across all densities. However, low-rank pruning struggles to match the performance of semi-structured pruning, often doubling perplexity at similar densities. In this paper, we propose Pivoting Factorization (PIFA), a novel lossless meta low-rank representation that unsupervisedly learns a compact form of any low-rank representation, effectively eliminating redundant information. PIFA identifies pivot rows (linearly independent rows) and expresses non-pivot rows as linear combinations, achieving 24.2% additional memory savings and 24.6% faster inference over low-rank layers at rank = 50% of dimension. To mitigate the performance degradation caused by low-rank pruning, we introduce a novel, retraining-free reconstruction method that minimizes error accumulation (M). MPIFA, combining M and PIFA into an end-to-end framework, significantly outperforms existing low-rank pruning methods, and achieves performance comparable to semi-structured pruning, while surpassing it in GPU efficiency and compatibility. Our code is available at https://github.com/biomedical-cybernetics/pivoting-factorization.