The Curse and Blessing of Mean Bias in FP4-Quantized LLM Training

📄 arXiv: 2603.10444v1 📥 PDF

作者: Hengjie Cao, Zhendong Huang, Mengyi Chen, Yifeng Yang, Fanqi Yu, Ruijun Huang, Fang Dong, Xin Zhang, Jixian Zhou, Anrui Chen, Mingzhi Dong, Yujiang Wang, Jinlong Hou, Qin Lv, Yuan Cheng, Tun Lu, Fan Yang, Li Shang

分类: cs.LG, cs.AI

发布日期: 2026-03-11


💡 一句话要点

提出均值消减方法,解决FP4量化LLM训练中的不稳定性问题。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 低比特量化 大型语言模型 FP4 均值消减 模型训练 量化训练 模型优化

📋 核心要点

  1. 低比特量化训练LLM时,模型各向异性导致数值不稳定,动态范围被拉伸,长尾语义信息损失。
  2. 通过消除激活值中的秩一均值偏差,可以有效缓解动态范围膨胀,恢复低比特训练的稳定性。
  3. 实验表明,该方法在FP4量化下显著缩小了与BF16的性能差距,并提升了下游任务表现。

📝 摘要(中文)

大型语言模型在自然语言上训练时表现出显著的各向异性:少量方向集中了不成比例的能量,而其余维度形成了广泛的语义尾部。在低比特训练方案中,这种几何结构在数值上变得不稳定。由于分块量化尺度由极端的元素级幅度决定,因此主导方向会拉伸动态范围,从而将长尾语义变化压缩到狭窄的数值区间中。我们表明,这种不稳定性主要由连贯的秩一均值偏差驱动,该偏差构成了LLM表示中谱各向异性的主要组成部分。这种均值分量系统地出现在各个层和训练阶段,并占据了大部分极端激活幅度,使其成为低精度下动态范围膨胀的主要驱动因素。至关重要的是,由于主要的不稳定性是秩一的,因此可以通过简单的源级均值减法操作来消除它。这种以偏差为中心的调节恢复了基于SVD的谱方法的大部分稳定性优势,同时仅需要归约操作和标准量化内核。在FP4(W4A4G4)训练上的经验结果表明,均值消除显著缩小了与BF16的损失差距,并恢复了下游性能,从而为稳定的低比特LLM训练提供了一条硬件高效的途径。

🔬 方法详解

问题定义:论文旨在解决低比特量化(特别是FP4)训练大型语言模型时出现的不稳定性问题。现有方法,如直接进行低比特量化,会导致显著的性能下降,因为模型激活值的各向异性使得量化过程难以捕捉重要的语义信息。极端值会主导量化范围,导致大量激活值被压缩到少数几个量化bin中,从而丢失信息。

核心思路:论文的核心思路是识别并消除导致不稳定的主要因素:激活值中的秩一均值偏差。作者发现,这种均值偏差是模型各向异性的主要来源,并且是导致动态范围膨胀的关键因素。通过在量化之前减去这个均值偏差,可以有效地降低动态范围,从而提高量化的精度和稳定性。

技术框架:该方法主要包含以下几个步骤:1. 在每个层和训练阶段,计算激活值的均值。2. 从激活值中减去计算得到的均值,进行均值消减。3. 使用标准的量化内核对均值消减后的激活值进行量化。4. 使用量化后的激活值进行模型训练。整个过程只需要简单的归约操作和标准量化内核,易于实现。

关键创新:该论文的关键创新在于识别出激活值中的秩一均值偏差是导致低比特量化训练不稳定的主要因素,并提出了一种简单有效的均值消减方法来解决这个问题。与传统的基于SVD的谱方法相比,该方法计算复杂度更低,更容易实现,并且能够达到相似的稳定性效果。

关键设计:该方法的关键设计在于均值的计算和消减。均值是在每个层和训练阶段独立计算的,以适应模型训练过程中激活值分布的变化。均值消减操作是在量化之前进行的,以确保量化过程能够更好地捕捉激活值的动态范围。没有引入额外的超参数或损失函数,保持了方法的简洁性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在FP4(W4A4G4)量化训练中,使用均值消减方法可以显著缩小与BF16训练的性能差距,并恢复下游任务的性能。具体而言,该方法在保持模型性能的同时,降低了训练过程中的损失,提高了模型的稳定性和收敛速度。该方法为低比特LLM训练提供了一条硬件高效的途径。

🎯 应用场景

该研究成果可应用于对计算资源和能耗有严格限制的场景,例如移动设备或边缘计算环境中的大型语言模型部署。通过使用FP4量化和均值消减技术,可以在保证模型性能的同时,显著降低存储和计算成本,加速LLM在资源受限设备上的普及。

📄 摘要(原文)

Large language models trained on natural language exhibit pronounced anisotropy: a small number of directions concentrate disproportionate energy, while the remaining dimensions form a broad semantic tail. In low-bit training regimes, this geometry becomes numerically unstable. Because blockwise quantization scales are determined by extreme elementwise magnitudes, dominant directions stretch the dynamic range, compressing long-tail semantic variation into narrow numerical bins. We show that this instability is primarily driven by a coherent rank-one mean bias, which constitutes the dominant component of spectral anisotropy in LLM representations. This mean component emerges systematically across layers and training stages and accounts for the majority of extreme activation magnitudes, making it the principal driver of dynamic-range inflation under low precision. Crucially, because the dominant instability is rank-one, it can be eliminated through a simple source-level mean-subtraction operation. This bias-centric conditioning recovers most of the stability benefits of SVD-based spectral methods while requiring only reduction operations and standard quantization kernels. Empirical results on FP4 (W4A4G4) training show that mean removal substantially narrows the loss gap to BF16 and restores downstream performance, providing a hardware-efficient path to stable low-bit LLM training.