Quantization Hurts Reasoning? An Empirical Study on Quantized Reasoning Models
作者: Ruikang Liu, Yuxuan Sun, Manyi Zhang, Haoli Bai, Xianzhi Yu, Tiezheng Yu, Chun Yuan, Lu Hou
分类: cs.CL, cs.AI
发布日期: 2025-04-07 (更新: 2025-08-18)
备注: COLM 2025
🔗 代码/项目: GITHUB
💡 一句话要点
系统研究量化对推理语言模型的影响,揭示模型大小、来源和任务难度是关键因素。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 量化 推理模型 语言模型 模型压缩 低比特量化 模型性能 实证研究
📋 核心要点
- 推理语言模型推理开销大,量化是降低开销的常用方法,但其对推理模型的影响尚不明确。
- 该研究系统性地评估了不同量化策略对多种推理语言模型在数学、科学和编程任务上的影响。
- 实验表明,较低比特宽度的量化会显著降低推理精度,模型大小、来源和任务难度是关键影响因素。
📝 摘要(中文)
本文首次系统性地研究了量化对推理语言模型的影响。研究评估了开源的DeepSeek-R1-Distilled、Qwen和LLaMA系列模型(参数规模从1.5B到70B)、QwQ-32B以及Qwen3-8B。研究内容涵盖了权重、KV缓存和激活的量化,使用了最先进的算法,并采用了不同的比特宽度。评估基准包括数学(AIME、MATH-500)、科学(GPQA)和编程(LiveCodeBench)推理任务。研究发现,W8A8或W4A16量化可以实现无损量化,但更低的比特宽度会带来显著的精度风险。此外,模型大小、模型来源和任务难度是影响性能的关键决定因素。与预期相反,量化模型并没有增加输出长度。最后,策略性地扩展模型大小或推理步骤可以有效地提高性能。所有量化模型和代码均已开源。
🔬 方法详解
问题定义:论文旨在研究量化对推理语言模型性能的影响。现有方法虽然广泛采用量化来降低大型语言模型的推理成本,但缺乏对推理模型量化后性能的系统性研究,尤其是在复杂的推理任务中,量化可能对模型的推理能力产生不利影响。
核心思路:论文的核心思路是通过对一系列开源推理语言模型进行不同方式的量化,并在多个推理基准上进行评估,从而揭示量化对推理性能的影响。通过对比不同比特宽度、不同量化对象(权重、KV缓存、激活)以及不同模型和任务下的性能表现,分析量化对推理能力的具体影响。
技术框架:该研究的技术框架主要包括以下几个部分:1) 选择一系列具有代表性的开源推理语言模型,包括DeepSeek-R1-Distilled、Qwen和LLaMA系列等;2) 采用最先进的量化算法,对模型的权重、KV缓存和激活进行量化,并尝试不同的比特宽度;3) 在数学(AIME、MATH-500)、科学(GPQA)和编程(LiveCodeBench)等多个推理基准上对量化后的模型进行评估;4) 分析实验结果,探讨量化对推理性能的影响,并识别影响性能的关键因素。
关键创新:该研究的主要创新在于首次对量化推理模型进行了系统的实证研究。之前的研究主要集中在通用语言模型的量化上,而忽略了推理模型在量化后的特殊表现。该研究通过大量的实验,揭示了量化对推理模型性能的影响,并指出了模型大小、模型来源和任务难度等关键因素。
关键设计:研究的关键设计包括:1) 选择了具有代表性的开源推理语言模型,覆盖了不同的模型架构和参数规模;2) 采用了多种量化策略,包括权重、KV缓存和激活的量化,以及不同的比特宽度;3) 在多个推理基准上进行了评估,涵盖了数学、科学和编程等不同领域的推理任务;4) 对实验结果进行了深入的分析,探讨了量化对推理性能的影响,并识别了影响性能的关键因素。
🖼️ 关键图片
📊 实验亮点
实验结果表明,W8A8或W4A16量化可以实现无损量化,但更低的比特宽度会带来显著的精度风险。例如,在某些任务上,低比特量化可能导致性能下降超过10%。此外,研究发现模型大小、模型来源和任务难度是影响量化后性能的关键因素。策略性地扩展模型大小或推理步骤可以有效地提高量化模型的性能。
🎯 应用场景
该研究成果可应用于各种需要高性能和低延迟的推理任务场景,例如边缘计算设备上的智能问答、自动代码生成和科学计算等。通过选择合适的量化策略,可以在保证推理精度的前提下,显著降低模型的计算复杂度和存储空间,从而实现更高效的推理。
📄 摘要(原文)
Recent advancements in reasoning language models have demonstrated remarkable performance in complex tasks, but their extended chain-of-thought reasoning process increases inference overhead. While quantization has been widely adopted to reduce the inference cost of large language models, its impact on reasoning models remains understudied. In this paper, we conduct the first systematic study on quantized reasoning models, evaluating the open-sourced DeepSeek-R1-Distilled Qwen and LLaMA families ranging from 1.5B to 70B parameters, QwQ-32B, and Qwen3-8B. Our investigation covers weight, KV cache, and activation quantization using state-of-the-art algorithms at varying bit-widths, with extensive evaluation across mathematical (AIME, MATH-500), scientific (GPQA), and programming (LiveCodeBench) reasoning benchmarks. Our findings reveal that while lossless quantization can be achieved with W8A8 or W4A16 quantization, lower bit-widths introduce significant accuracy risks. We further identify model size, model origin, and task difficulty as critical determinants of performance. Contrary to expectations, quantized models do not exhibit increased output lengths. In addition, strategically scaling the model sizes or reasoning steps can effectively enhance the performance. All quantized models and codes are open-sourced in https://github.com/ruikangliu/Quantized-Reasoning-Models.