ClusComp: A Simple Paradigm for Model Compression and Efficient Finetuning

📄 arXiv: 2503.13089v2 📥 PDF

作者: Baohao Liao, Christian Herold, Seyyed Hadi Hashemi, Stefan Vasilev, Shahram Khadivi, Christof Monz

分类: cs.CL, cs.AI

发布日期: 2025-03-17 (更新: 2025-06-01)

备注: ACL camera-ready version


💡 一句话要点

ClusComp:一种用于模型压缩和高效微调的简单范式

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 模型压缩 量化 低比特量化 大型语言模型 微调 聚类 边缘计算

📋 核心要点

  1. 现有权重压缩方法在极低比特量化时性能显著下降,且标准微调方法不适用于量化后的模型。
  2. ClusComp通过将权重矩阵聚类成码本,并逐块进行微调,实现了高效的模型压缩和性能恢复。
  3. 实验表明,ClusComp在极低比特量化下性能优越,且微调效率高,甚至可在单GPU上处理70B模型。

📝 摘要(中文)

随着大型语言模型(LLMs)规模的扩大,模型压缩对于边缘部署和可访问性至关重要。纯权重量化虽然可以减小模型大小,但在较低比特宽度下会降低性能。此外,标准微调与量化模型不兼容,而替代方法通常无法达到完全微调的效果。本文提出了ClusComp,一种简单而有效的压缩范式,它将权重矩阵聚类成码本,并逐块对其进行微调。ClusComp (1) 在2-4比特量化中实现了卓越的性能,(2) 将压缩推至1比特,同时通过最小的微调优于超低比特方法,并且 (3) 实现了高效的微调,甚至超越了现有的基于量化的方法,并且可以与完整的FP16微调相媲美。值得注意的是,ClusComp支持在单个A6000-48GB GPU上压缩和微调70B LLM。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLMs)在边缘设备部署和资源受限场景下的压缩问题。现有方法,如纯权重(Weight-only)量化,在极低比特(如1-4 bit)下性能显著下降。此外,标准微调方法与量化模型不兼容,导致量化后模型难以通过微调恢复性能。因此,如何在极低比特下实现高效的模型压缩和微调是本研究要解决的核心问题。

核心思路:ClusComp的核心思路是将权重矩阵聚类成码本,然后对这些码本进行微调。通过聚类,相似的权重被归为一类,从而减少了需要存储的参数量。逐块微调则允许在保持压缩的同时,对模型进行优化,以恢复因量化造成的性能损失。这种方法旨在在压缩率和性能之间取得平衡。

技术框架:ClusComp的整体框架包括以下几个主要阶段:1) 权重聚类:将模型的权重矩阵进行聚类,生成码本。2) 量化:使用码本对权重进行量化,将原始权重替换为码本中的索引。3) 微调:对量化后的模型进行微调,优化码本中的值,以恢复模型性能。微调过程采用块状(block-wise)方式,即每次只更新一部分码本。

关键创新:ClusComp的关键创新在于其简单而有效的压缩和微调范式。与传统的量化方法相比,ClusComp通过聚类和逐块微调,能够在极低比特下实现更高的压缩率和更好的性能。此外,ClusComp的微调效率很高,甚至可以在单个GPU上处理大型模型。

关键设计:ClusComp的关键设计包括:1) 聚类算法:论文可能采用了K-means等聚类算法,用于将权重矩阵聚类成码本。2) 码本大小:码本的大小决定了压缩率和性能之间的平衡。3) 逐块微调策略:论文可能采用了特定的块大小和更新策略,以提高微调效率。4) 损失函数:微调过程中使用的损失函数,用于优化码本中的值。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

ClusComp在2-4比特量化中表现出色,在1比特量化中也优于其他超低比特方法。通过最小的微调,ClusComp的性能甚至可以与FP16全精度微调相媲美。此外,ClusComp能够在单个A6000-48GB GPU上压缩和微调70B LLM,展示了其高效性和可扩展性。

🎯 应用场景

ClusComp适用于各种需要模型压缩的场景,例如边缘设备上的LLM部署、移动设备上的AI应用、以及资源受限环境下的模型训练和推理。该方法可以显著降低模型大小,提高推理速度,并降低计算成本,从而使得大型语言模型能够在更广泛的场景中应用。

📄 摘要(原文)

As large language models (LLMs) scale, model compression is crucial for edge deployment and accessibility. Weight-only quantization reduces model size but suffers from performance degradation at lower bit widths. Moreover, standard finetuning is incompatible with quantized models, and alternative methods often fall short of full finetuning. In this paper, we propose ClusComp, a simple yet effective compression paradigm that clusters weight matrices into codebooks and finetunes them block-by-block. ClusComp (1) achieves superior performance in 2-4 bit quantization, (2) pushes compression to 1-bit while outperforming ultra-low-bit methods with minimal finetuning, and (3) enables efficient finetuning, even surpassing existing quantization-based approaches and rivaling full FP16 finetuning. Notably, ClusComp supports compression and finetuning of 70B LLMs on a single A6000-48GB GPU.