OSAQ: Outlier Self-Absorption for Accurate Low-bit LLM Quantization

📄 arXiv: 2605.04738v1 📥 PDF

作者: Zhikai Li, Zhen Dong, Xuewen Liu, Jing Zhang, Qingyi Gu

分类: cs.LG

发布日期: 2026-05-06

备注: ICML 2026


💡 一句话要点

提出OSAQ,通过权重自吸收抑制异常值,提升低比特LLM量化精度。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 量化 低比特量化 权重量化 异常值抑制 Hessian矩阵 模型压缩

📋 核心要点

  1. 现有LLM量化方法难以有效处理权重中的异常值,导致量化性能不佳。
  2. OSAQ利用Hessian矩阵的低秩特性,在零空间内进行加性权重变换,抑制异常值。
  3. 实验表明,OSAQ能显著降低低比特量化后的模型困惑度,例如2比特量化下优于GPTQ。

📝 摘要(中文)

大型语言模型(LLMs)展现了卓越的能力。然而,其庞大的参数规模导致推理过程中显著的资源消耗和延迟。后训练的纯权重量化通过减少模型大小和加速token生成来缓解内存瓶颈问题,提供了一个有希望的解决方案。然而,权重中固有的系统性异常值仍然是一个主要障碍。虽然现有的方法,如缩放和旋转,试图解决这个问题,但性能仍然不令人满意。在本文中,我们提出了异常值自吸收量化(OSAQ),它执行由二阶低秩属性引导的加性权重抑制,用于LLMs的低比特纯权重量化。具体来说,我们观察到Hessian在不同的输入中表现出低秩一致性,某些方向始终显示出消失的曲率。利用这一特性,我们识别出Hessian的一个稳定的零空间,然后通过线性组合该零空间内的向量来构建一个加性权重变换,从而在不影响任务损失的情况下抑制权重异常值。这种加性变换可以离线吸收到权重中,不需要层间变换,也不会引入推理开销。此外,该构建可以通过闭式解有效地实现,无需资源密集型训练或迭代过程。大量的实验表明,OSAQ有效地抑制了异常值,并提高了低比特量化性能。例如,在2比特量化中,OSAQ与GPTQ集成时,实现了比vanilla GPTQ低40%以上的困惑度。

🔬 方法详解

问题定义:论文旨在解决低比特纯权重LLM量化中,权重异常值导致的性能下降问题。现有方法如缩放和旋转等,无法有效抑制这些异常值,导致量化后的模型精度损失较大。

核心思路:论文的核心思路是利用Hessian矩阵的低秩特性,找到一个稳定的零空间。通过在该零空间内构建加性权重变换,可以在不显著影响模型性能的前提下,有效地抑制权重中的异常值。这种方法避免了复杂的训练或迭代过程,并且可以离线完成,不增加推理开销。

技术框架:OSAQ的主要流程包括:1) 计算Hessian矩阵;2) 识别Hessian矩阵的零空间;3) 在零空间内构建加性权重变换;4) 将该变换吸收到原始权重中。整个过程无需训练,且可以离线完成。

关键创新:OSAQ的关键创新在于利用Hessian矩阵的低秩特性来指导权重异常值的抑制。与现有方法不同,OSAQ不是简单地缩放或旋转权重,而是通过加性变换来直接抑制异常值,从而更有效地保留了模型的原始性能。此外,利用Hessian零空间保证了变换不会显著影响任务损失。

关键设计:OSAQ的关键设计包括:1) 使用二阶信息(Hessian矩阵)来指导权重变换;2) 利用Hessian矩阵的低秩一致性,保证了零空间的稳定性;3) 通过闭式解高效地构建加性权重变换,避免了复杂的优化过程;4) 将加性变换吸收到权重中,无需额外的层间变换,不引入推理开销。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,OSAQ能够有效抑制异常值,显著提升低比特量化性能。例如,在2比特量化中,OSAQ与GPTQ集成时,相比于原始GPTQ,困惑度降低了超过40%。这表明OSAQ在低比特量化方面具有显著优势。

🎯 应用场景

OSAQ可应用于各种需要低资源消耗和低延迟的大型语言模型部署场景,例如移动设备、边缘计算设备等。通过提高低比特量化模型的精度,OSAQ能够降低模型存储空间和计算复杂度,从而实现更高效的模型推理,加速LLM在资源受限环境中的应用。

📄 摘要(原文)

Large Language Models (LLMs) have demonstrated remarkable capabilities. However, their massive parameter scale leads to significant resource consumption and latency during inference. Post-training weight-only quantization offers a promising solution by reducing model size and accelerating token generation through alleviating the memory-bound issue. Nevertheless, the presence of inherent systematic outliers in weights continues to be a major obstacle. While existing methods, such as scaling and rotation, attempt to address this issue, the performance remains unsatisfactory. In this paper, we propose Outlier Self-Absorption Quantization (OSAQ), which performs additive weight suppression guided by the second-order low-rank property for low-bit weight-only quantization of LLMs. Specifically, we observe that the Hessian exhibits low-rank consistency across different inputs, with certain directions consistently showing vanishing curvature. Leveraging this property, we identify a stable null space of the Hessian and then construct an additive weight transformation by linearly combining the vectors within this null space, thereby suppressing weight outliers without affecting the task loss. This additive transformation can be absorbed into the weights offline, requiring no inter-layer transformations and introducing no inference overhead. Moreover, the construction is efficiently achieved by a closed-form solution, without resource-intensive training or iterative procedures. Extensive experiments demonstrate that OSAQ effectively suppresses outliers and enhances low-bit quantization performance. For instance, in 2-bit quantization, OSAQ, when integrated with GPTQ, achieves over 40% lower perplexity compared to vanilla GPTQ.