Only relative ranks matter in weight-clustered large language models
作者: Borja Aizpurua, Sukhbinder Singh, Román Orús
分类: cs.LG, cs.CL
发布日期: 2026-03-18
备注: 10 pages, 3 figures, 9 tables
💡 一句话要点
提出基于相对权重排序的LLM压缩方法,无需训练即可显著降低模型大小。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型压缩 权重聚类 相对排序 模型鲁棒性 无训练压缩
📋 核心要点
- 大型语言模型参数冗余,精确权重值并非关键,权重间的相对强弱关系更为重要。
- 通过权重聚类,将每个权重矩阵简化为少量共享值,在不重训练情况下压缩模型。
- 实验表明,保持权重相对排序的随机化对模型影响小,而扰乱排序则会显著降低模型性能。
📝 摘要(中文)
大型语言模型(LLM)包含数十亿个参数,但许多精确值并非必不可少。本文表明,最重要的是权重的相对排序——一个连接比另一个连接更强或更弱——而不是精确的大小。为了减少唯一权重值的数量,我们将权重聚类应用于预训练模型,用K-means的K个共享值替换每个权重矩阵。对于Llama 3.1-8B-Instruct和SmolLM2-135M,将每个矩阵减少到只有16-64个不同的值,可以在不重新训练的情况下保持强大的准确性,从而提供一种简单的、无需训练的LLM磁盘压缩方法。可选地,仅微调聚类均值(质心)可以以最小的成本恢复剩余准确性差距的30-40%。然后,我们在保持分配固定的情况下,系统地随机化聚类均值。扰乱聚类的相对排序会急剧降低质量——困惑度可能会增加几个数量级——即使全局统计数据(如均值和方差)得以保留。相反,保持排序的随机化几乎不会导致中间层和后期层的损失。另一方面,当同时扰动许多层时,逐层替换表明尺度漂移——而不是排序失真——是主要的崩溃机制;然而,仿射校正w' = aw + b,其中a > 0(保留排序和整体权重分布)可以大大延迟这种漂移。这种基于排序的视角为模型压缩和鲁棒性提供了新的视角。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)参数量过大,存储和计算成本高昂的问题。现有模型压缩方法,如剪枝、量化等,通常需要大量的训练或微调,且可能导致模型性能下降。论文关注如何在不进行或少量训练的情况下,有效压缩LLM,同时保持其性能。
核心思路:论文的核心思路是,LLM中权重值的精确大小并不重要,重要的是权重之间的相对排序。因此,可以通过减少权重矩阵中唯一值的数量,同时保持权重之间的相对排序,来实现模型压缩。这种方法的核心在于,权重之间的相对关系蕴含了模型学习到的知识。
技术框架:论文的技术框架主要包括以下几个步骤:1) 对预训练的LLM进行权重聚类,使用K-means算法将每个权重矩阵聚类成K个簇,每个簇用一个共享值(簇中心)代替。2) 可选地,对聚类后的模型进行微调,仅微调簇中心,以恢复部分性能损失。3) 系统地随机化簇中心,并分析不同随机化策略对模型性能的影响,包括保持排序的随机化和扰乱排序的随机化。4) 研究多层同时扰动时,模型崩溃的机制,并提出仿射校正方法来延迟崩溃。
关键创新:论文最重要的技术创新点在于,提出了基于相对权重排序的LLM压缩方法。与传统的模型压缩方法不同,该方法不关注权重的精确值,而是关注权重之间的相对关系。这种方法无需大量训练即可实现有效的模型压缩,并且对模型的鲁棒性提供了新的视角。
关键设计:论文的关键设计包括:1) 使用K-means算法进行权重聚类,选择合适的K值(16-64)以平衡压缩率和性能。2) 在微调阶段,仅微调簇中心,以减少计算成本。3) 设计不同的随机化策略,包括保持排序的随机化和扰乱排序的随机化,以研究权重排序对模型性能的影响。4) 提出仿射校正方法w' = aw + b,其中a > 0,以延迟多层同时扰动时模型的崩溃。
🖼️ 关键图片
📊 实验亮点
实验结果表明,对于Llama 3.1-8B-Instruct和SmolLM2-135M,将每个权重矩阵减少到只有16-64个不同的值,可以在不重新训练的情况下保持强大的准确性。仅微调聚类均值可以恢复剩余准确性差距的30-40%。扰乱聚类排序会导致困惑度增加几个数量级,而保持排序的随机化几乎不会导致性能损失。
🎯 应用场景
该研究成果可应用于各种需要部署大型语言模型的场景,例如移动设备、嵌入式系统等。通过减少模型大小,可以降低存储和计算成本,提高推理速度,使得LLM能够在资源受限的环境中运行。此外,该研究也为模型鲁棒性研究提供了新的思路,有助于开发更可靠的LLM。
📄 摘要(原文)
Large language models (LLMs) contain billions of parameters, yet many exact values are not essential. We show that what matters most is the relative rank of weights-whether one connection is stronger or weaker than another-rather than precise magnitudes. To reduce the number of unique weight values, we apply weight clustering to pretrained models, replacing every weight matrix with K shared values from K-means. For Llama 3.1-8B-Instruct and SmolLM2-135M, reducing each matrix to only 16-64 distinct values preserves strong accuracy without retraining, providing a simple, training-free method to compress LLMs on disk. Optionally fine-tuning only the cluster means (centroids) recovers 30-40 percent of the remaining accuracy gap at minimal cost. We then systematically randomize cluster means while keeping assignments fixed. Scrambling the relative ranks of the clusters degrades quality sharply-perplexity can increase by orders of magnitude-even when global statistics such as mean and variance are preserved. In contrast, rank-preserving randomizations cause almost no loss at mid and late layers. On the other hand, when many layers are perturbed simultaneously, progressive layer-by-layer replacement reveals that scale drift-not rank distortion-is the dominant collapse mechanism; however, an affine correction w' = aw + b with a > 0 (which preserves both rank order and overall weight distribution) can substantially delay this drift. This rank-based perspective offers a new lens on model compression and robustness.