Massive Spikes in LLMs are Bias Vectors: Mechanistic Uncovering and Spike-Free Quantization
作者: Yung-Chin Chen, Chung Peng Lee, Ze-Wei Liou, Naveen Verma
分类: cs.LG
发布日期: 2026-06-01
💡 一句话要点
提出INSERTQUANT,通过向量模板恢复机制实现LLM的spike-free量化
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 量化 后训练量化 激活值尖峰 向量偏差
📋 核心要点
- LLM量化面临激活值尖峰问题,导致动态范围拉伸,严重影响量化精度,现有方法难以有效解决。
- 论文提出INSERTQUANT框架,通过预计算的模板向量钳制尖峰并恢复其功能,实现激活值的spike-free量化。
- INSERTQUANT在LLM上达到与SOTA per-tensor量化方法相当的性能,并成功泛化到ViT等其他模态。
📝 摘要(中文)
大型语言模型(LLM)中的巨大激活尖峰通过拉伸动态范围严重降低了量化的性能。先前的假设将这些尖峰描述为高级标量偏差,但我们认为它们仅仅是携带尖峰的token中刚性结构向量偏差的标量中间值。我们证明,这些token在归一化后会收敛到恒定向量,从而驱动注意力汇聚和值状态耗尽机制。通过分析投影权重$W_K$、$W_Q$和$W_V$的协调性,我们从几何角度证实了这一点:$W_K$对比地放大向量,$W_Q$将语义token对齐到该向量,而$W_V$将其投影到谱零空间中。此外,我们揭示了模型通过将这些结构偏差定位在利用低频带和相干通道对的“旋转稳定性区域”中,主动防止旋转位置嵌入(RoPE)扰动。基于此,我们提出INSERTQUANT,一种后训练量化(PTQ)框架,通过预先计算的模板向量来钳制尖峰并恢复其功能。这使得激活严格无尖峰,从而实现具有高保真度的鲁棒低比特量化。INSERTQUANT在LLM上实现了与最先进的per-tensor量化方法相当的性能,并且独特地超越了文本,推广到其他模态(如ViT)。
🔬 方法详解
问题定义:大型语言模型(LLM)的量化面临着激活值中存在大量尖峰(spikes)的问题。这些尖峰会显著拉伸激活值的动态范围,使得低比特量化难以准确表示原始的激活分布,从而导致量化后的模型性能大幅下降。现有的量化方法,例如传统的后训练量化(PTQ)或训练时量化(QAT),通常无法有效处理这些尖峰,或者需要引入额外的复杂优化策略,增加了量化的难度和计算成本。
核心思路:论文的核心思路是将这些激活尖峰视为由token中刚性的结构向量偏差产生的标量中间值。作者观察到,携带尖峰的token在经过归一化后会收敛到恒定向量。基于此,论文提出通过预先计算的模板向量来钳制这些尖峰,并在量化后恢复它们的功能。这种方法的核心在于将尖峰视为一种结构性的偏差,而不是简单的异常值,从而能够更有效地进行处理。
技术框架:INSERTQUANT框架主要包含以下几个步骤:1) 尖峰检测:识别激活值中的尖峰token。2) 模板向量计算:对于每个尖峰token,计算其对应的模板向量。这些模板向量代表了尖峰token在归一化后的稳定状态。3) 尖峰钳制:在量化之前,将激活值中的尖峰钳制到一个预设的阈值,从而消除尖峰的影响。4) 向量恢复:在量化之后,使用预先计算的模板向量来恢复被钳制的尖峰token的功能。具体来说,将模板向量乘以一个标量系数,然后加回到量化后的激活值中。
关键创新:INSERTQUANT的关键创新在于:1) 将激活尖峰视为结构性的向量偏差,而不是简单的标量异常值。2) 提出使用预计算的模板向量来钳制和恢复尖峰,从而实现spike-free量化。3) 揭示了模型通过“旋转稳定性区域”来抵抗RoPE扰动,为模板向量的计算提供了理论依据。
关键设计:在INSERTQUANT中,模板向量的计算是一个关键的设计。论文通过对尖峰token进行归一化,并计算其在多个样本上的平均值来得到模板向量。此外,论文还分析了投影权重$W_K$、$W_Q$和$W_V$的协调性,揭示了它们在放大、对齐和投影尖峰向量中的作用。在实现上,论文采用了一种简单有效的钳制策略,即将激活值中大于阈值的元素设置为阈值。恢复过程则是将模板向量乘以一个标量系数,然后加回到量化后的激活值中。
🖼️ 关键图片
📊 实验亮点
INSERTQUANT在LLM上实现了与最先进的per-tensor量化方法相当的性能,例如在某些模型上甚至超过了SOTA方法。更重要的是,INSERTQUANT具有良好的泛化能力,可以成功应用于ViT等其他模态的模型,而现有的许多量化方法通常只适用于文本模态。实验结果表明,INSERTQUANT能够有效降低量化误差,提高量化模型的精度,从而验证了该方法的有效性和通用性。
🎯 应用场景
INSERTQUANT具有广泛的应用前景,可以应用于各种需要低比特量化的场景,例如移动设备上的LLM部署、边缘计算设备上的视觉任务等。该方法能够有效降低模型大小和计算复杂度,同时保持较高的模型精度,从而使得在资源受限的设备上部署大型模型成为可能。此外,该方法还可以应用于模型压缩、模型加速等领域,具有重要的实际价值和未来影响。
📄 摘要(原文)
Massive activation spikes in Large Language Models (LLMs) severely degrade quantization by stretching dynamic ranges. While prior hypotheses characterize these as high-level scalar biases, we argue that they are merely the scalar intermediates of rigid, structural vector biases in the spike-carrying tokens. We show that these tokens converge to constant vectors after normalization that drive the attention sink and value-state drain mechanisms. We geometrically substantiate this by analyzing the coordination of projection weights: $W_K$ contrastively amplifies the vector, $W_Q$ aligns semantic tokens toward it, and $W_V$ projects it into the spectral null-space. Furthermore, we reveal that the model actively preserves these structural biases against Rotary Positional Embedding (RoPE) perturbations by localizing them in "zones of rotational stability" utilizing low-frequency bands and coherent channel pairs. Leveraging this, we propose INSERTQUANT, a post-training quantization (PTQ) framework that clamps spikes and restores their function via pre-computed template vectors. This renders activations strictly spike-free, enabling robust low-bit quantization with high fidelity. INSERTQUANT achieves parity with state-of-the-art per-tensor quantization methods on LLMs and uniquely generalizes beyond text to other modalities such as ViTs.