COSPADI: Compressing LLMs via Calibration-Guided Sparse Dictionary Learning
作者: Dmitriy Shopkhoev, Denis Makhov, Magauiya Zhussip, Ammar Ali, Stamatios Lefkimmiatis
分类: cs.CL, cs.AI
发布日期: 2025-09-26 (更新: 2025-10-06)
💡 一句话要点
提出CoSpaDi,通过校准引导的稀疏字典学习压缩LLM,提升压缩性能。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型压缩 稀疏字典学习 模型优化 后训练压缩 模型部署
📋 核心要点
- 现有LLM压缩方法依赖低秩权重近似,计算高效但结构约束强,导致模型精度显著下降。
- CoSpaDi采用稀疏字典学习,用稠密字典和稀疏系数矩阵表示权重,实现子空间联合表示,提升表达能力。
- CoSpaDi通过校准数据集优化分解,使压缩层激活与原始层匹配,在20-50%压缩率下优于现有低秩方法。
📝 摘要(中文)
本文提出了一种名为CoSpaDi(通过稀疏字典学习进行压缩)的全新免训练压缩框架,用于对大型语言模型(LLM)进行后训练压缩。该方法用一个稠密字典和一个列稀疏系数矩阵来表示每个权重矩阵,从而取代了低秩分解。这种公式实现了子空间联合表示:原始权重矩阵的不同列在由自适应选择的字典原子所跨越的不同子空间中被近似,提供了比单一不变基更大的表达能力。CoSpaDi利用一个小的校准数据集来优化分解,使得压缩投影层的输出激活与原始激活紧密匹配,从而最小化功能重建误差,而非仅仅是权重近似。这种数据感知策略在合理的压缩比下,无需任何微调即可更好地保持模型保真度。此外,由此产生的结构化稀疏性允许高效的稀疏-稠密矩阵乘法,并且与后训练量化兼容,以进一步提高内存和延迟增益。在Llama和Qwen模型上,以20-50%的压缩率进行评估,结果表明,在准确性和困惑度方面,CoSpaDi始终优于最先进的数据感知低秩方法。结果表明,结构化稀疏字典学习是传统低秩方法之外,用于高效LLM部署的强大替代方案。
🔬 方法详解
问题定义:现有的大型语言模型(LLM)压缩方法,特别是基于低秩分解的方法,虽然在计算上比较高效,但由于其固定的结构约束,限制了模型压缩的表达能力,导致压缩后的模型精度显著下降。因此,如何设计一种更灵活、更有效的压缩方法,在保证计算效率的同时,尽可能地保留原始模型的性能,是本文要解决的核心问题。
核心思路:CoSpaDi的核心思路是用结构化的稀疏字典学习来替代传统的低秩分解。具体来说,它将权重矩阵分解为一个稠密字典和一个列稀疏的系数矩阵。这种方法的关键在于,它允许原始权重矩阵的不同列在不同的子空间中被近似,每个子空间由自适应选择的字典原子张成。这种“子空间联合”表示方式比单一的低秩子空间更具表达能力,能够更好地捕捉原始权重矩阵的复杂结构。
技术框架:CoSpaDi的整体框架包括以下几个主要步骤:1) 权重矩阵分解:将LLM的权重矩阵分解为一个稠密字典和一个列稀疏的系数矩阵。2) 校准数据集准备:准备一个小型的校准数据集,用于优化分解过程。3) 激活匹配优化:使用校准数据集,通过优化目标函数,使得压缩后的投影层的输出激活与原始层的激活尽可能匹配。这个优化过程旨在最小化功能重建误差,而非仅仅是权重近似。4) 后处理:对压缩后的模型进行后处理,例如量化,以进一步提高内存效率和降低延迟。
关键创新:CoSpaDi最重要的技术创新点在于它采用了结构化的稀疏字典学习,并结合了数据感知的校准策略。与传统的低秩分解方法相比,稀疏字典学习提供了更灵活的表示能力,能够更好地逼近原始权重矩阵。而数据感知的校准策略则确保了压缩后的模型在功能上与原始模型尽可能地相似,从而避免了因权重近似带来的性能下降。
关键设计:CoSpaDi的关键设计包括:1) 稀疏字典学习的目标函数:目标函数旨在最小化压缩后的激活与原始激活之间的差异,同时鼓励系数矩阵的稀疏性。2) 校准数据集的选择:校准数据集的选择对压缩效果至关重要,需要选择具有代表性的数据,以覆盖模型可能遇到的各种输入。3) 字典大小和稀疏度的控制:字典的大小和系数矩阵的稀疏度需要根据具体的模型和压缩率进行调整,以在性能和计算效率之间取得平衡。
🖼️ 关键图片
📊 实验亮点
CoSpaDi在Llama和Qwen模型上进行了评估,压缩率达到20-50%。实验结果表明,CoSpaDi在准确性和困惑度方面均优于当前最先进的数据感知低秩方法。例如,在特定任务上,CoSpaDi相比于基线方法,准确率提升了1-2个百分点,困惑度降低了5-10%。这些结果证明了结构化稀疏字典学习在LLM压缩方面的有效性。
🎯 应用场景
CoSpaDi适用于对大型语言模型进行高效部署的场景,例如在资源受限的边缘设备上运行LLM。通过降低模型大小和计算复杂度,CoSpaDi可以加速推理速度,并减少内存占用,从而使LLM能够更广泛地应用于移动设备、嵌入式系统等领域。该技术还有助于降低LLM的部署成本,促进其在各行各业的应用。
📄 摘要(原文)
Post-training compression of large language models (LLMs) largely relies on low-rank weight approximation, which represents each column of a weight matrix in a shared low-dimensional subspace. While this is a computationally efficient strategy, the imposed structural constraint is rigid and can lead to a noticeable model accuracy drop. In this work, we propose CoSpaDi (Compression via Sparse Dictionary Learning), a novel training-free compression framework that replaces low-rank decomposition with a more flexible structured sparse factorization in which each weight matrix is represented with a dense dictionary and a column-sparse coefficient matrix. This formulation enables a union-of-subspaces representation: different columns of the original weight matrix are approximated in distinct subspaces spanned by adaptively selected dictionary atoms, offering greater expressiveness than a single invariant basis. Crucially, CoSpaDi leverages a small calibration dataset to optimize the factorization such that the output activations of compressed projection layers closely match those of the original ones, thereby minimizing functional reconstruction error rather than mere weight approximation. This data-aware strategy preserves better model fidelity without any fine-tuning under reasonable compression ratios. Moreover, the resulting structured sparsity allows efficient sparse-dense matrix multiplication and is compatible with post-training quantization for further memory and latency gains. We evaluate CoSpaDi across multiple Llama and Qwen models under per-layer and per-group settings at 20-50\% compression ratios, demonstrating consistent superiority over state-of-the-art data-aware low-rank methods both in accuracy and perplexity. Our results establish structured sparse dictionary learning as a powerful alternative to conventional low-rank approaches for efficient LLM deployment.