End-to-End On-Device Quantization-Aware Training for LLMs at Inference Cost
作者: Qitao Tan, Xiaoying Song, Jin Lu, Guoming Li, Jun Liu, Lingzi Hong, Caiwen Ding, Jundong Li, Xiaoming Zhai, Shaoyi Huang, Wei Niu, Geng Yuan
分类: cs.LG, cs.AI
发布日期: 2025-08-21 (更新: 2025-09-29)
💡 一句话要点
提出ZeroQAT,实现端到端、低成本的大语言模型量化感知训练。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 量化感知训练 零阶优化 大型语言模型 边缘计算 模型压缩 低比特量化 端到端训练
📋 核心要点
- 现有后训练量化方法无法微调模型参数,低比特量化精度损失大;传统量化感知训练依赖反向传播,内存开销巨大。
- ZeroQAT采用基于零阶优化的量化感知训练框架,通过前向梯度估计消除反向传播,降低计算和内存开销。
- 实验表明,ZeroQAT在内存占用更低的情况下,性能优于现有PTQ和QAT方法,并能在边缘设备上微调大型模型。
📝 摘要(中文)
量化是降低大型语言模型(LLM)部署成本的有效技术,后训练量化(PTQ)因其效率而被广泛研究。然而,现有的PTQ方法受限于无法微调模型参数,并且在低比特场景下常常遭受显著的精度损失。量化感知训练(QAT)提供了一种更原则性的解决方案,但其对反向传播的依赖导致了过高的内存成本,限制了其在LLM部署中的实用性。为了解决这些挑战,我们提出了ZeroQAT,一个基于零阶优化的QAT框架,支持权重和激活量化。ZeroQAT利用前向梯度估计来消除反向传播,从而显著降低计算和内存开销,同时保留端到端优化的优势。我们进一步引入了ZeroQAT的轻量级变体用于量化微调,该变体冻结并预量化了大多数参数,以进一步降低内存使用。实验表明,ZeroQAT始终优于代表性的PTQ和QAT基线,同时需要更少的内存。例如,ZeroQAT能够在单个8GB GPU上微调一个13B模型在极低的比特宽度(例如,2-4比特),甚至允许在OnePlus 12智能手机上微调一个6.7B模型,证明了其在资源受限的边缘设备上进行端到端QAT的实用性。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLMs)在资源受限设备上部署时,低比特量化带来的精度损失问题。现有的后训练量化(PTQ)方法无法微调模型参数,导致精度下降;而传统的量化感知训练(QAT)方法依赖反向传播,内存开销巨大,难以应用于大型模型。
核心思路:论文的核心思路是利用零阶优化来替代传统的基于反向传播的QAT。零阶优化只需要前向计算,避免了反向传播带来的巨大内存开销,从而可以在资源受限的设备上进行LLM的量化感知训练。通过前向梯度估计,可以在不进行反向传播的情况下优化量化模型的参数。
技术框架:ZeroQAT框架主要包含以下几个阶段:1) 初始化量化模型;2) 使用零阶优化估计梯度,该过程仅需前向计算;3) 使用估计的梯度更新模型参数;4) 重复步骤2和3,直到模型收敛。此外,论文还提出了一个轻量级的ZeroQAT变体,用于量化微调,该变体冻结并预量化了大部分参数,以进一步降低内存使用。
关键创新:最重要的技术创新点是使用零阶优化进行量化感知训练,避免了反向传播,显著降低了内存开销。与传统的QAT方法相比,ZeroQAT不需要存储中间激活值和梯度,从而可以在资源受限的设备上进行训练。此外,轻量级变体通过冻结和预量化大部分参数,进一步降低了内存占用。
关键设计:论文使用了基于高斯扰动的零阶优化方法来估计梯度。具体来说,对于每个参数,随机添加一个小的扰动,然后计算模型输出的变化。通过多次采样,可以估计出参数的梯度。此外,论文还设计了一个损失函数,用于衡量量化模型的性能。在轻量级变体中,论文选择性地冻结和预量化了部分参数,以在精度和内存占用之间取得平衡。
🖼️ 关键图片
📊 实验亮点
ZeroQAT在多个LLM上进行了实验,结果表明其性能优于现有的PTQ和QAT方法。例如,ZeroQAT能够在单个8GB GPU上微调一个13B模型在2-4比特的极低比特宽度下,并且能够在OnePlus 12智能手机上微调一个6.7B模型。与传统的QAT方法相比,ZeroQAT显著降低了内存占用,使其能够在资源受限的设备上进行训练。
🎯 应用场景
该研究成果可广泛应用于边缘设备上大型语言模型的部署,例如智能手机、嵌入式系统等。通过降低模型大小和计算复杂度,可以在资源受限的环境中实现高效的自然语言处理应用,如智能助手、机器翻译、文本摘要等。该技术还有助于推动AI在物联网、自动驾驶等领域的应用。
📄 摘要(原文)
Quantization is an effective technique to reduce the deployment cost of large language models (LLMs), and post-training quantization (PTQ) has been widely studied due to its efficiency. However, existing PTQ methods are limited by their inability to fine-tune model parameters and often suffer significant accuracy loss in low-bit scenarios. Quantization-aware training (QAT) provides a more principled solution, but its reliance on backpropagation incurs prohibitive memory costs, limiting its practicality for LLM deployment. To address these challenges, we propose ZeroQAT, a zeroth-order optimization-based QAT framework that supports both weight and activation quantization. ZeroQAT leverages forward-only gradient estimation to eliminate backpropagation, substantially reducing computational and memory overhead while retaining the benefits of end-to-end optimization. We further introduce a lightweight variant of ZeroQAT for quantized fine-tuning, which freezes and pre-quantizes most parameters to further cut memory usage. Experiments show that ZeroQAT consistently outperforms representative PTQ and QAT baselines while requiring significantly less memory. For example, ZeroQAT enables fine-tuning of a 13B model at extremely low bit-widths (e.g., 2-4 bits) on a single 8GB GPU, and even allows fine-tuning a 6.7B model on a OnePlus 12 smartphone, demonstrating its practicality for end-to-end QAT on resource-limited edge devices.