SERQ: Saliency-Aware Low-Rank Error Reconstruction for LLM Quantization

📄 arXiv: 2603.08185v1 📥 PDF

作者: Yeonsik Park, Hyeonseong Kim, Seungkyu Choi

分类: cs.LG

发布日期: 2026-03-09

备注: 21 pages, 4 figures


💡 一句话要点

SERQ:面向LLM量化的显著性感知低秩误差重构方法

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 后训练量化 低比特量化 大型语言模型 误差重构 低秩适应

📋 核心要点

  1. 现有PTQ方法在W4A4低精度量化下精度损失严重,且传统LoRA需要中间量化,限制了效率。
  2. SERQ通过单低秩补偿矩阵,联合缓解激活和权重显著性带来的量化误差,实现高效低比特量化。
  3. 实验表明,SERQ在W4A8和W4A4设置下优于现有误差重构方法,精度高于SOTA旋转方法,并降低了校准复杂度。

📝 摘要(中文)

后训练量化(PTQ)已成为在边缘设备和服务器平台上高效部署大型语言模型(LLM)的主流技术,可有效降低内存和计算成本。现有的PTQ方法主要旨在通过缓解通道级异常激活引起的量化误差来降低权重和激活的精度(例如,预量化缩放、在线转换或低秩误差重构)。其中,基于低秩适应(LoRA)的误差重构已被证明特别有效,因为它引入了一个轻量级的辅助计算路径,而不需要繁重的优化或额外的在线层。然而,先前的研究表明,在W4A4设置下,精度会严重下降,并且传统的低秩适应依赖于两个连续的因子,需要在推理过程中进行中间量化,从而限制了低精度效率。本文提出SERQ,一种用于低比特LLM推理的显著性感知误差重构方法,它采用单个低秩补偿矩阵。SERQ通过三个阶段联合缓解激活和权重显著性引起的量化误差,从而在Linear层中保持高效的4比特矩阵乘法:(1)静态激活扁平化,(2)显著性感知误差重构,以及(3)离线权重置换。该方法仅通过单次分解进行低秩误差重构时产生额外的计算,而所有其他操作都在离线执行,从而使延迟开销最小。实验结果表明,SERQ在W4A8和W4A4设置下均优于先前的误差重构方法,并且比最先进的基于旋转的W4A4方法实现了更高的精度,同时大大降低了校准复杂度。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)在极低比特量化(如W4A4)下的精度下降问题。现有的后训练量化(PTQ)方法,特别是基于低秩适应(LoRA)的误差重构方法,虽然在一定程度上缓解了量化误差,但在W4A4设置下仍然面临严重的精度损失。此外,传统的LoRA方法需要两个连续的低秩因子,导致推理过程中需要进行中间量化,降低了低精度量化的效率。

核心思路:SERQ的核心思路是通过一个单一的低秩补偿矩阵,同时考虑激活和权重的显著性,来缓解量化误差。通过静态激活扁平化、显著性感知误差重构和离线权重置换三个阶段,SERQ旨在最小化量化误差,并在推理过程中保持高效的4比特矩阵乘法。这种设计避免了中间量化,提高了低精度量化的效率。

技术框架:SERQ方法主要包含三个阶段: 1. 静态激活扁平化:对激活进行预处理,减少异常激活的影响。 2. 显著性感知误差重构:使用一个单一的低秩矩阵来补偿量化误差,该矩阵同时考虑了激活和权重的显著性。 3. 离线权重置换:在离线状态下对权重进行重新排列,以进一步优化量化效果。整个流程中,只有低秩误差重构需要额外的计算,其他操作都在离线完成,从而降低了推理延迟。

关键创新:SERQ的关键创新在于使用单一低秩矩阵同时补偿激活和权重的显著性误差,避免了传统LoRA方法中的中间量化步骤。此外,SERQ通过静态激活扁平化和离线权重置换等预处理步骤,进一步优化了量化效果。这种联合优化策略使得SERQ在低比特量化下能够获得更高的精度和效率。与现有方法相比,SERQ简化了推理过程,降低了计算复杂度。

关键设计:SERQ的关键设计包括: 1. 显著性感知:通过某种方式(论文中未明确说明具体方法,标记为未知)评估激活和权重的显著性,并在误差重构过程中加以考虑。 2. 单低秩矩阵:使用一个单一的低秩矩阵来补偿量化误差,避免了中间量化步骤。 3. 离线优化:将大部分计算(如激活扁平化和权重置换)放在离线进行,以降低推理延迟。具体的损失函数和网络结构等技术细节在论文中没有详细描述,标记为未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SERQ在W4A8和W4A4设置下均优于先前的误差重构方法。在W4A4设置下,SERQ比最先进的基于旋转的量化方法实现了更高的精度,同时显著降低了校准复杂度。具体性能数据未在摘要中给出,标记为未知。

🎯 应用场景

SERQ方法可广泛应用于对计算资源和内存要求严苛的场景,例如边缘设备上的LLM部署、移动设备上的自然语言处理应用等。通过降低LLM的量化比特数,SERQ能够显著减少模型大小和计算复杂度,从而实现更高效的推理,并降低能源消耗。该研究的成果有助于推动LLM在资源受限环境中的普及和应用。

📄 摘要(原文)

Post-training quantization (PTQ) has emerged as a prevailing technique for deploying large language models (LLMs) efficiently in terms of both memory and computation, across edge devices and server platforms. Existing PTQ methods primarily aim to reduce precision in weights and activations by mitigating quantization errors caused by channel-wise outlier activations (e.g., pre-quantization scaling, online transformations, or low-rank error reconstruction). Among these approaches, error reconstruction with low-rank adaptation (LoRA) has proven particularly effective, as it introduces a lightweight auxiliary computation path without requiring heavy optimization or additional online layers. However, prior studies reveal severe accuracy degradation under W4A4 settings, and conventional low-rank adaptations rely on two sequential factors, necessitating intermediate quantization during inference and thereby limiting low-precision efficiency. In this work, we propose SERQ, a saliency-aware error reconstruction method for low-bit LLM inference that employs a single low-rank compensation matrix. SERQ preserves efficient 4-bit matrix multiplication in linear layers by jointly mitigating quantization errors arising from both activation and weight saliency through three stages: (1) static activation flattening, (2) saliency-aware error reconstruction, and (3) offline weight permutation. The method incurs additional computation only for low-rank error reconstruction via a single decomposition, while all other operations are performed offline, thereby keeping latency overhead minimal. Empirically, SERQ outperforms prior error reconstruction methods under both W4A8 and W4A4 settings, and achieves higher accuracy than state-of-the-art rotation-based W4A4 approaches, while substantially reducing calibration complexity.