End-to-End On-Device Quantization-Aware Training for LLMs at Inference Cost

作者: Qitao Tan, Xiaoying Song, Jin Lu, Guoming Li, Jun Liu, Lingzi Hong, Caiwen Ding, Jundong Li, Xiaoming Zhai, Shaoyi Huang, Wei Niu, Geng Yuan

分类: cs.LG, cs.AI

发布日期: 2025-08-21 (更新: 2025-09-29)

💡 一句话要点

提出ZeroQAT，实现端到端、低成本的大语言模型量化感知训练。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 量化感知训练 零阶优化 大型语言模型 边缘计算 模型压缩 低比特量化 端到端训练

📋 核心要点

现有后训练量化方法无法微调模型参数，低比特量化精度损失大；传统量化感知训练依赖反向传播，内存开销巨大。
ZeroQAT采用基于零阶优化的量化感知训练框架，通过前向梯度估计消除反向传播，降低计算和内存开销。
实验表明，ZeroQAT在内存占用更低的情况下，性能优于现有PTQ和QAT方法，并能在边缘设备上微调大型模型。

📝 摘要（中文）

量化是降低大型语言模型（LLM）部署成本的有效技术，后训练量化（PTQ）因其效率而被广泛研究。然而，现有的PTQ方法受限于无法微调模型参数，并且在低比特场景下常常遭受显著的精度损失。量化感知训练（QAT）提供了一种更原则性的解决方案，但其对反向传播的依赖导致了过高的内存成本，限制了其在LLM部署中的实用性。为了解决这些挑战，我们提出了ZeroQAT，一个基于零阶优化的QAT框架，支持权重和激活量化。ZeroQAT利用前向梯度估计来消除反向传播，从而显著降低计算和内存开销，同时保留端到端优化的优势。我们进一步引入了ZeroQAT的轻量级变体用于量化微调，该变体冻结并预量化了大多数参数，以进一步降低内存使用。实验表明，ZeroQAT始终优于代表性的PTQ和QAT基线，同时需要更少的内存。例如，ZeroQAT能够在单个8GB GPU上微调一个13B模型在极低的比特宽度（例如，2-4比特），甚至允许在OnePlus 12智能手机上微调一个6.7B模型，证明了其在资源受限的边缘设备上进行端到端QAT的实用性。

🔬 方法详解

问题定义：论文旨在解决大型语言模型（LLMs）在资源受限设备上部署时，低比特量化带来的精度损失问题。现有的后训练量化（PTQ）方法无法微调模型参数，导致精度下降；而传统的量化感知训练（QAT）方法依赖反向传播，内存开销巨大，难以应用于大型模型。

核心思路：论文的核心思路是利用零阶优化来替代传统的基于反向传播的QAT。零阶优化只需要前向计算，避免了反向传播带来的巨大内存开销，从而可以在资源受限的设备上进行LLM的量化感知训练。通过前向梯度估计，可以在不进行反向传播的情况下优化量化模型的参数。

技术框架：ZeroQAT框架主要包含以下几个阶段：1) 初始化量化模型；2) 使用零阶优化估计梯度，该过程仅需前向计算；3) 使用估计的梯度更新模型参数；4) 重复步骤2和3，直到模型收敛。此外，论文还提出了一个轻量级的ZeroQAT变体，用于量化微调，该变体冻结并预量化了大部分参数，以进一步降低内存使用。

关键创新：最重要的技术创新点是使用零阶优化进行量化感知训练，避免了反向传播，显著降低了内存开销。与传统的QAT方法相比，ZeroQAT不需要存储中间激活值和梯度，从而可以在资源受限的设备上进行训练。此外，轻量级变体通过冻结和预量化大部分参数，进一步降低了内存占用。

关键设计：论文使用了基于高斯扰动的零阶优化方法来估计梯度。具体来说，对于每个参数，随机添加一个小的扰动，然后计算模型输出的变化。通过多次采样，可以估计出参数的梯度。此外，论文还设计了一个损失函数，用于衡量量化模型的性能。在轻量级变体中，论文选择性地冻结和预量化了部分参数，以在精度和内存占用之间取得平衡。

🖼️ 关键图片

📊 实验亮点

ZeroQAT在多个LLM上进行了实验，结果表明其性能优于现有的PTQ和QAT方法。例如，ZeroQAT能够在单个8GB GPU上微调一个13B模型在2-4比特的极低比特宽度下，并且能够在OnePlus 12智能手机上微调一个6.7B模型。与传统的QAT方法相比，ZeroQAT显著降低了内存占用，使其能够在资源受限的设备上进行训练。

🎯 应用场景

该研究成果可广泛应用于边缘设备上大型语言模型的部署，例如智能手机、嵌入式系统等。通过降低模型大小和计算复杂度，可以在资源受限的环境中实现高效的自然语言处理应用，如智能助手、机器翻译、文本摘要等。该技术还有助于推动AI在物联网、自动驾驶等领域的应用。

📄 摘要（原文）

Quantization is an effective technique to reduce the deployment cost of large language models (LLMs), and post-training quantization (PTQ) has been widely studied due to its efficiency. However, existing PTQ methods are limited by their inability to fine-tune model parameters and often suffer significant accuracy loss in low-bit scenarios. Quantization-aware training (QAT) provides a more principled solution, but its reliance on backpropagation incurs prohibitive memory costs, limiting its practicality for LLM deployment. To address these challenges, we propose ZeroQAT, a zeroth-order optimization-based QAT framework that supports both weight and activation quantization. ZeroQAT leverages forward-only gradient estimation to eliminate backpropagation, substantially reducing computational and memory overhead while retaining the benefits of end-to-end optimization. We further introduce a lightweight variant of ZeroQAT for quantized fine-tuning, which freezes and pre-quantizes most parameters to further cut memory usage. Experiments show that ZeroQAT consistently outperforms representative PTQ and QAT baselines while requiring significantly less memory. For example, ZeroQAT enables fine-tuning of a 13B model at extremely low bit-widths (e.g., 2-4 bits) on a single 8GB GPU, and even allows fine-tuning a 6.7B model on a OnePlus 12 smartphone, demonstrating its practicality for end-to-end QAT on resource-limited edge devices.

End-to-End On-Device Quantization-Aware Training for LLMs at Inference Cost

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理