SASQ: Static Activation Scaling for Quantization-Aware Training in Large Language Models

📄 arXiv: 2512.14481v1 📥 PDF

作者: Shizhuo Mao, Song Chen, Yi Kang

分类: cs.CL, cs.AI

发布日期: 2025-12-16


💡 一句话要点

SASQ:一种用于大语言模型量化感知训练的静态激活缩放方法

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 量化感知训练 模型量化 激活量化 静态量化 低精度计算 模型部署

📋 核心要点

  1. 现有量化方法在精度、计算开销和部署效率之间存在权衡,静态量化损失精度,动态量化开销大,权重训练成本高。
  2. SASQ通过仅优化激活量化因子,避免了权重训练的开销,同时自适应截断异常值,降低量化难度。
  3. 实验表明,SASQ在LLaMA2-7B上优于SOTA量化方案QuaRot和FP16模型,降低了困惑度。

📝 摘要(中文)

大型语言模型(LLMs)在自然语言任务中表现出色,但其不断增长的规模超过了GPU内存的发展速度,给部署带来了挑战。模型量化通过降低权重和激活的精度来缓解这个问题,但现有的解决方案面临着根本性的权衡:动态量化会产生很高的计算开销,并在边缘设备上造成部署挑战,而静态量化会牺牲准确性。现有的量化感知训练(QAT)方法进一步受到权重训练成本的困扰。我们提出了SASQ:一个轻量级的QAT框架,专门为激活量化因子量身定制。SASQ仅优化量化因子(不改变预训练权重),从而实现高精度的静态推理,同时保持部署效率。SASQ自适应地截断一些异常值,从而降低量化的难度,同时保留激活的分布特征。SASQ不仅超越了现有的SOTA量化方案,而且优于相应的FP16模型。在LLaMA2-7B上,它在WikiText2上的困惑度比QuaRot低5.2%,比FP16模型低4.7%。

🔬 方法详解

问题定义:论文旨在解决大语言模型量化部署时,静态量化精度损失和动态量化计算开销大的问题。现有的量化感知训练方法通常需要对权重进行训练,计算成本高昂,不适用于大规模模型。

核心思路:SASQ的核心思路是只优化激活的量化因子,而保持预训练权重不变。通过这种方式,避免了权重训练的巨大开销,同时仍然能够提升量化模型的精度。此外,SASQ还引入了自适应截断机制,以处理激活值中的异常值,从而降低量化的难度。

技术框架:SASQ框架主要包含两个阶段:量化因子初始化和量化因子优化。在量化因子初始化阶段,使用统计方法确定初始的量化因子。在量化因子优化阶段,使用量化感知训练的方式,通过反向传播来优化量化因子。整个过程不需要更新预训练的权重。

关键创新:SASQ的关键创新在于:1) 仅优化激活量化因子,避免了权重训练的开销;2) 引入自适应截断机制,处理激活值中的异常值,降低量化难度。这使得SASQ能够在保持部署效率的同时,实现更高的量化精度。

关键设计:SASQ的关键设计包括:1) 量化因子的初始化策略,采用统计方法,例如min-max或百分位数;2) 自适应截断阈值的选择,根据激活值的分布动态调整;3) 量化感知训练的损失函数,通常使用交叉熵损失或困惑度作为优化目标。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SASQ在LLaMA2-7B模型上进行了实验,结果表明,SASQ在WikiText2数据集上的困惑度比QuaRot低5.2%,比FP16模型低4.7%。这表明SASQ不仅超越了现有的SOTA量化方案,而且优于全精度模型,实现了更高的精度和更好的性能。

🎯 应用场景

SASQ适用于大语言模型在资源受限设备上的部署,例如移动设备、嵌入式系统等。通过降低模型的计算复杂度和内存占用,SASQ使得这些设备能够运行更大规模的语言模型,从而提升自然语言处理任务的性能。该方法还可以应用于云计算平台,降低模型推理的成本。

📄 摘要(原文)

Large language models (LLMs) excel at natural language tasks but face deployment challenges due to their growing size outpacing GPU memory advancements. Model quantization mitigates this issue by lowering weight and activation precision, but existing solutions face fundamental trade-offs: dynamic quantization incurs high computational overhead and poses deployment challenges on edge devices, while static quantization sacrifices accuracy. Existing approaches of quantization-aware training (QAT) further suffer from weight training costs. We propose SASQ: a lightweight QAT framework specifically tailored for activation quantization factors. SASQ exclusively optimizes only the quantization factors (without changing pre-trained weights), enabling static inference with high accuracy while maintaining deployment efficiency. SASQ adaptively truncates some outliers, thereby reducing the difficulty of quantization while preserving the distributional characteristics of the activations. SASQ not only surpasses existing SOTA quantization schemes but also outperforms the corresponding FP16 models. On LLaMA2-7B, it achieves 5.2% lower perplexity than QuaRot and 4.7% lower perplexity than the FP16 model on WikiText2.