The Super Weight in Large Language Models

📄 arXiv: 2411.07191v2 📥 PDF

作者: Mengxia Yu, De Wang, Qi Shan, Colorado J Reed, Alvin Wan

分类: cs.CL, cs.AI

发布日期: 2024-11-11 (更新: 2025-07-07)


💡 一句话要点

发现大语言模型中的超权重,单参数剪枝即可摧毁模型性能

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 模型压缩 权重剪枝 模型量化 超权重 超激活 参数重要性 数据无关

📋 核心要点

  1. 现有研究表明少量参数对LLM性能至关重要,但具体到单个参数的影响尚不明确。
  2. 提出一种数据无关的方法,通过单次前向传播识别对LLM性能影响巨大的“超权重”。
  3. 实验表明,保留超权重能显著提升量化效果,并提供了常用LLM的超权重坐标索引。

📝 摘要(中文)

最近的研究表明,大语言模型(LLM)中一小部分参数异常值对模型的质量具有不成比例的重要性。LLM包含数十亿个参数,因此即使是很小的比例(如0.01%)也对应着数十万个参数。本文提出了一个更令人惊讶的发现:剪枝单个参数就可能摧毁LLM生成文本的能力,导致困惑度增加3个数量级,零样本准确率降至随机猜测水平。我们提出了一种无需数据的方法,通过对模型进行一次前向传递来识别这些参数,称之为超权重。此外,我们还发现这些超权重会诱导相应的稀有且大的激活异常值,称之为超激活。通过高精度地保留超激活,可以使简单的四舍五入量化方法与最先进的方法相媲美。对于权重量化,我们同样发现,通过保留超权重并裁剪其他权重异常值,四舍五入量化可以扩展到比以前认为的更大的块大小。为了促进对超权重的进一步研究,我们提供了常见、公开可用的LLM的超权重坐标索引。

🔬 方法详解

问题定义:现有大语言模型虽然参数众多,但并非所有参数都同等重要。之前的研究已经发现一小部分参数对模型性能有不成比例的影响。然而,这些研究通常关注的是参数子集,而忽略了单个参数可能带来的巨大影响。因此,如何识别并有效利用这些关键的单个参数,成为了一个亟待解决的问题。

核心思路:本文的核心思路是,通过分析模型中权重和激活值的分布,识别出那些对模型性能至关重要的“超权重”和“超激活”。这些超权重和超激活表现为罕见且幅度较大的异常值。作者假设,这些异常值在模型的决策过程中起着关键作用,因此对它们进行精确的保留和处理,可以显著提升模型性能。

技术框架:该方法主要包含以下几个步骤:1) 对LLM进行单次前向传播,收集权重和激活值;2) 分析权重和激活值的分布,识别出幅度较大的异常值,即超权重和超激活;3) 设计相应的量化策略,对超权重和超激活进行高精度保留,并对其他权重进行量化;4) 在下游任务上评估量化后的模型性能。

关键创新:该论文最重要的创新点在于发现了大语言模型中单个参数(超权重)对模型性能的巨大影响。以往的研究通常关注参数子集的剪枝和量化,而忽略了单个参数的重要性。此外,该论文还提出了一种数据无关的方法来识别这些超权重,避免了对大量训练数据的依赖。

关键设计:在识别超权重时,作者采用了一种基于阈值的策略,将幅度大于某个阈值的权重定义为超权重。在量化策略方面,作者对超权重进行高精度保留,并对其他权重进行四舍五入量化。此外,作者还探索了不同的块大小和裁剪策略,以进一步提升量化效果。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,剪枝单个超权重参数即可导致LLM困惑度增加3个数量级,零样本准确率降至随机猜测水平。通过保留超激活,简单的四舍五入量化方法可以与最先进的量化方法相媲美。通过保留超权重并裁剪其他权重异常值,四舍五入量化可以扩展到比以前认为的更大的块大小。

🎯 应用场景

该研究成果可应用于大语言模型的压缩和加速,尤其是在资源受限的设备上部署LLM。通过精确量化和保留超权重,可以在显著降低模型大小的同时,保持甚至提升模型性能。此外,该研究也为理解LLM的内部机制提供了新的视角,有助于开发更高效的模型训练和优化方法。

📄 摘要(原文)

Recent works have shown a surprising result: a small fraction of Large Language Model (LLM) parameter outliers are disproportionately important to the quality of the model. LLMs contain billions of parameters, so these small fractions, such as 0.01%, translate to hundreds of thousands of parameters. In this work, we present an even more surprising finding: Pruning as few as a single parameter can destroy an LLM's ability to generate text -- increasing perplexity by 3 orders of magnitude and reducing zero-shot accuracy to guessing. We propose a data-free method for identifying such parameters, termed super weights, using a single forward pass through the model. We additionally find that these super weights induce correspondingly rare and large activation outliers, termed super activations. When preserved with high precision, super activations can improve simple round-to-nearest quantization to become competitive with state-of-the-art methods. For weight quantization, we similarly find that by preserving the super weight and clipping other weight outliers, round-to-nearest quantization can scale to much larger block sizes than previously considered. To facilitate further research into super weights, we provide an index of super weight coordinates for common, openly available LLMs.