Normalized Architectures are Natively 4-Bit
作者: Maxim Fishman, Brian Chmiel, Ron Banner, Daniel Soudry, Boris Ginsburg
分类: cs.LG, cs.AI
发布日期: 2026-05-07
🔗 代码/项目: GITHUB
💡 一句话要点
提出nGPT架构,原生支持4比特量化训练,提升大模型效率。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 量化训练 低精度计算 模型压缩 超球面约束
📋 核心要点
- 现有大模型4比特量化训练依赖复杂干预手段,影响训练效率和稳定性。
- nGPT架构通过约束权重和隐藏层表示在超球面上,增强低精度算术的鲁棒性。
- 实验表明,nGPT在1.2B稠密模型和3B/30B MoE模型上实现了稳定的NVFP4训练。
📝 摘要(中文)
本文提出了一种名为nGPT的架构,该架构将权重和隐藏层表示约束在单位超球面上,从而使其对低精度算术具有更强的鲁棒性。这种鲁棒性消除了传统低精度训练中所需的干预措施,例如应用随机Hadamard变换和执行逐张量缩放计算,从而实现了稳定的端到端NVFP4训练。该方法在一个1.2B稠密模型和高达3B/30B参数的混合(Mamba-Transformer)MoE模型上得到了验证。研究表明,这种鲁棒性源于点积运算的特性:虽然量化噪声在标准架构和归一化架构中都保持很大程度的不相关性,但信号的行为却不同。在nGPT中,超球面约束增强了元素乘积之间的微弱正相关性,从而导致信号在隐藏维度上的建设性累积,而噪声继续平均化。这产生更高的有效信噪比和更平坦的损失landscape,并且随着隐藏维度增长,效果会增强,表明规模越大优势越大。代码已开源。
🔬 方法详解
问题定义:现有的大语言模型在进行4比特量化训练时,通常需要引入额外的干预措施,例如随机Hadamard变换和逐张量缩放计算,以保证模型性能。这些干预措施增加了训练的复杂性,降低了训练效率,并且可能影响模型的最终性能。因此,如何设计一种能够原生支持低精度训练,无需额外干预措施的架构,是一个重要的研究问题。
核心思路:本文的核心思路是提出一种名为nGPT的架构,该架构通过将权重和隐藏层表示约束在单位超球面上,从而增强模型对低精度算术的鲁棒性。这种约束使得模型在量化过程中,信号能够更好地保留,而噪声能够更好地平均化,从而提高了有效信噪比。
技术框架:nGPT架构的核心在于对权重和隐藏层表示的归一化约束。具体来说,在每一层的前向传播过程中,首先对权重进行归一化,使其位于单位超球面上。然后,将输入数据与归一化后的权重进行点积运算,得到隐藏层表示。最后,对隐藏层表示进行归一化,使其也位于单位超球面上。通过这种方式,nGPT架构能够有效地控制权重和隐藏层表示的尺度,从而提高对低精度算术的鲁棒性。
关键创新:nGPT架构的关键创新在于其对权重和隐藏层表示的归一化约束。与传统的架构相比,nGPT架构能够更好地保留信号,平均化噪声,从而提高有效信噪比。此外,nGPT架构还能够使得损失landscape更加平坦,从而更容易进行优化。
关键设计:nGPT架构的关键设计包括:1) 使用单位超球面约束对权重和隐藏层表示进行归一化;2) 使用NVFP4格式进行低精度训练;3) 在混合(Mamba-Transformer)MoE模型中应用nGPT架构。论文中没有明确提及损失函数和网络结构的具体细节,但可以推断其使用了标准的交叉熵损失函数和Transformer或Mamba架构。
🖼️ 关键图片
📊 实验亮点
实验结果表明,nGPT架构在1.2B稠密模型和高达3B/30B参数的混合(Mamba-Transformer)MoE模型上实现了稳定的NVFP4训练。与需要额外干预措施的传统量化方法相比,nGPT架构能够以更低的精度进行训练,同时保持较高的模型性能。论文开源了参考实现,方便研究人员进行复现和进一步研究。
🎯 应用场景
nGPT架构在资源受限的设备上部署大型语言模型具有重要应用价值。通过原生支持4比特量化训练,nGPT能够显著降低模型的大小和计算复杂度,从而使得在移动设备、嵌入式系统等资源受限的平台上部署大型语言模型成为可能。此外,nGPT架构还可以应用于对延迟敏感的应用场景,例如实时语音识别、机器翻译等。
📄 摘要(原文)
Training large language models at 4-bit precision is critical for efficiency. We show that nGPT, an architecture that constrains weights and hidden representations to the unit hypersphere, is inherently more robust to low-precision arithmetic. This removes the need for interventions-such as applying random Hadamard transforms and performing per-tensor scaling calculations-to preserve model quality, and it enables stable end-to-end NVFP4 training. We validate this approach on both a 1.2B dense model and hybrid (Mamba-Transformer) MoE models of up to 3B/30B parameters. We trace this robustness to the dot product: while quantization noise remains largely uncorrelated in both standard and normalized architectures, the signal behaves differently. In nGPT, the hypersphere constraint enhances weak positive correlations among the element-wise products, leading to a constructive accumulation of the signal across the hidden dimension while the noise continues to average out. This yields a higher effective signal-to-noise ratio and a flatter loss landscape, with the effect strengthening as the hidden dimension grows, suggesting increasing advantages at scale. A reference implementation is available at https://github.com/anonymous452026/ngpt-nvfp4