What Makes Low-Bit Quantization-Aware Training Work for Reasoning LLMs? A Systematic Study

作者: Keyu Lv, Manyi Zhang, Xiaobo Xia, Jingchen Ni, Shannan Yan, Xianzhi Yu, Lu Hou, Chun Yuan, Haoli Bai

分类: cs.LG, cs.AI, cs.CL

发布日期: 2026-01-21

💡 一句话要点

针对推理LLM，提出一种高效的低比特量化感知训练方法Reasoning-QAT。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 量化感知训练 低比特量化 大型语言模型 推理优化 知识蒸馏

📋 核心要点

现有后训练量化(PTQ)方法在低比特设置下，推理LLM时精度损失大，尤其是在推理任务中。
论文提出Reasoning-QAT，一种优化的量化感知训练工作流程，结合知识蒸馏、PTQ初始化和强化学习。
实验表明，Reasoning-QAT在多个LLM和推理数据集上显著优于PTQ方法，例如在Qwen3-0.6B上，MATH-500提升44.53%。

📝 摘要（中文）

推理模型在编码和数学等复杂任务中表现出色，但其推理速度通常较慢且token效率较低。为了提高推理效率，后训练量化(PTQ)通常会导致较大的精度下降，尤其是在低比特设置下的推理任务中。本研究对推理模型的量化感知训练(QAT)进行了系统的实证研究。主要发现包括：(1)知识蒸馏是监督微调或强化学习训练的推理模型的有效目标；(2)PTQ为QAT提供了一个强大的初始化，提高了准确性并降低了训练成本；(3)在可行的冷启动下，强化学习对于量化模型仍然可行，并产生额外的收益；(4)将PTQ校准域与QAT训练域对齐可以加速收敛，并通常提高最终准确性。最后，我们将这些发现整合到一个优化的工作流程(Reasoning-QAT)中，并表明它在多个LLM骨干网络和推理数据集上始终优于最先进的PTQ方法。例如，在Qwen3-0.6B上，它在MATH-500上超过GPTQ 44.53%，并在2比特状态下持续恢复性能。

🔬 方法详解

问题定义：论文旨在解决低比特量化下，推理大型语言模型（LLM）的精度损失问题。现有的后训练量化（PTQ）方法在推理任务中，尤其是在低比特设置下，会造成显著的性能下降，限制了LLM在资源受限环境中的部署。

核心思路：论文的核心思路是通过量化感知训练（QAT）来缓解量化带来的精度损失。具体而言，论文通过系统性地研究QAT的各个环节，包括知识蒸馏目标、PTQ初始化、强化学习以及校准域对齐，找到最优的QAT配置，从而在低比特量化下保持LLM的推理能力。

技术框架：Reasoning-QAT的整体流程如下：首先，使用PTQ对模型进行初始化，得到一个量化后的模型。然后，使用知识蒸馏作为训练目标，对量化模型进行微调。在微调过程中，可以选择使用监督微调或强化学习。最后，通过对齐PTQ校准域和QAT训练域，加速收敛并提高最终精度。

关键创新：论文的关键创新在于系统性地研究了QAT的各个环节，并提出了以下几个关键发现：1) 知识蒸馏是推理模型QAT的有效目标；2) PTQ可以为QAT提供良好的初始化；3) 强化学习可以进一步提升量化模型的性能；4) 对齐PTQ校准域和QAT训练域可以加速收敛。基于这些发现，论文提出了一个优化的QAT工作流程Reasoning-QAT。

关键设计：在知识蒸馏方面，论文采用了标准的知识蒸馏损失函数，鼓励量化模型的输出接近原始模型的输出。在PTQ初始化方面，论文使用了GPTQ等先进的PTQ方法。在强化学习方面，论文使用了与原始模型相同的奖励函数。在校准域对齐方面，论文使用了与QAT训练数据相同的数据集进行PTQ校准。

🖼️ 关键图片

📊 实验亮点

Reasoning-QAT在多个LLM骨干网络和推理数据集上都取得了显著的性能提升。例如，在Qwen3-0.6B模型上，Reasoning-QAT在MATH-500数据集上超过GPTQ 44.53%，并且在2比特量化下也能保持较好的性能，证明了其在低比特量化下的有效性。

🎯 应用场景

该研究成果可应用于各种需要高效推理的场景，例如移动设备上的智能助手、边缘计算设备上的自然语言处理应用等。通过降低LLM的计算和存储成本，可以使其更容易部署在资源受限的环境中，从而推动LLM在更广泛领域的应用。

📄 摘要（原文）

Reasoning models excel at complex tasks such as coding and mathematics, yet their inference is often slow and token-inefficient. To improve the inference efficiency, post-training quantization (PTQ) usually comes with the cost of large accuracy drops, especially for reasoning tasks under low-bit settings. In this study, we present a systematic empirical study of quantization-aware training (QAT) for reasoning models. Our key findings include: (1) Knowledge distillation is a robust objective for reasoning models trained via either supervised fine-tuning or reinforcement learning; (2) PTQ provides a strong initialization for QAT, improving accuracy while reducing training cost; (3) Reinforcement learning remains feasible for quantized models given a viable cold start and yields additional gains; and (4) Aligning the PTQ calibration domain with the QAT training domain accelerates convergence and often improves the final accuracy. Finally, we consolidate these findings into an optimized workflow (Reasoning-QAT), and show that it consistently outperforms state-of-the-art PTQ methods across multiple LLM backbones and reasoning datasets. For instance, on Qwen3-0.6B, it surpasses GPTQ by 44.53% on MATH-500 and consistently recovers performance in the 2-bit regime.

What Makes Low-Bit Quantization-Aware Training Work for Reasoning LLMs? A Systematic Study

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理