Training Dynamics Impact Post-Training Quantization Robustness

📄 arXiv: 2510.06213v2 📥 PDF

作者: Albert Catalan-Tatjer, Niccolò Ajroldi, Jonas Geiping

分类: cs.LG

发布日期: 2025-10-07 (更新: 2026-01-30)


💡 一句话要点

揭示训练动态对量化鲁棒性的影响,提出超参数干预提升量化质量

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 后训练量化 量化鲁棒性 训练动态 学习率衰减 超参数优化

📋 核心要点

  1. 现有方法在大型语言模型量化部署时,对量化鲁棒性的内在机制理解不足,缺乏有效提升量化性能的手段。
  2. 通过分析训练动态与量化性能的关系,发现学习率衰减后验证损失和量化误差会产生差异,且与数据规模无关。
  3. 通过控制训练超参数,证明战略性干预可以提升大规模模型的量化质量,挑战了数据规模越大量化效果越差的假设。

📝 摘要(中文)

后训练量化被广泛应用于大型语言模型的高效部署,但量化鲁棒性的内在机制仍不明确。本文对高达320亿参数和15万亿训练token的开源语言模型训练轨迹进行了全面的量化降级分析,以准确评估训练动态与量化性能之间的关系。主要发现是,大规模训练运行中的量化误差是由学习率和其他训练超参数之间的复杂相互作用驱动的。具体而言,一旦学习率衰减,验证损失和量化误差就会出现差异,这在很大程度上与训练数据规模无关。为了研究对训练动态的干预,并确定可以有利地调节量化鲁棒性的特定配置,我们在受控实验中训练了自己的模型,最多达到1000亿个token。我们的结果挑战了增加数据集规模会固有地损害量化有效性的假设,而是表明战略性的训练超参数干预可以提高大规模的量化质量。

🔬 方法详解

问题定义:论文旨在解决大型语言模型后训练量化过程中,量化鲁棒性不足的问题。现有方法通常依赖于增加数据规模来提升模型性能,但并未充分考虑训练动态对量化误差的影响,导致量化后的模型性能下降。

核心思路:论文的核心思路是通过深入分析训练过程中学习率等超参数对量化误差的影响,揭示训练动态与量化鲁棒性之间的关系。进而,通过对训练超参数进行策略性干预,优化训练过程,从而提升量化后的模型性能。

技术框架:论文的研究框架主要包括以下几个阶段:1) 对现有的开源语言模型训练轨迹进行量化降级分析,评估训练动态与量化性能之间的关系;2) 通过控制训练超参数,训练自己的模型,进行受控实验;3) 分析实验结果,确定可以有利地调节量化鲁棒性的特定配置;4) 验证超参数干预对量化质量的提升效果。

关键创新:论文的关键创新在于发现了学习率衰减后,验证损失和量化误差会产生差异,且与数据规模无关。这一发现挑战了以往认为增加数据规模可以提升量化鲁棒性的观点,为优化训练过程提供了新的思路。

关键设计:论文的关键设计包括:1) 精心设计的超参数搜索空间,用于探索不同超参数组合对量化鲁棒性的影响;2) 细致的量化误差评估指标,用于准确衡量量化后的模型性能;3) 对比实验,验证超参数干预的有效性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文通过实验证明,战略性的训练超参数干预可以提高大规模的量化质量,挑战了增加数据集规模会固有地损害量化有效性的假设。具体而言,通过调整学习率衰减策略等超参数,可以在不增加数据规模的情况下,显著降低量化误差,提升量化后模型的性能。

🎯 应用场景

该研究成果可应用于大型语言模型的高效部署,尤其是在资源受限的边缘设备上。通过优化训练过程,提升量化鲁棒性,可以降低模型量化带来的性能损失,从而在保证模型性能的同时,降低计算成本和存储需求。这对于推动人工智能在各行业的广泛应用具有重要意义。

📄 摘要(原文)

While post-training quantization is widely adopted for efficient deployment of large language models, the mechanisms underlying quantization robustness remain unclear. We conduct a comprehensive analysis of quantization degradation across open-source language model training trajectories up to 32B parameters and 15T training tokens to accurately assess the relationship between training dynamics and quantization performance. Our key finding is that quantization errors in large-scale training runs are driven by a complex interplay between learning rate and other training hyperparameters. Specifically, once learning rates decay, validation loss and quantization error diverge, largely independent of training data scale. To investigate interventions on the training dynamics and identify specific configurations that can modulate quantization robustness favorably, we train our own models in controlled experiments up to 100B tokens. Our results challenge the assumption that increasing dataset scale inherently compromises quantization effectiveness, demonstrating instead that strategic training hyperparameter interventions can improve quantization quality at scale.