HiFloat4 Format for Language Model Pre-training on Ascend NPUs

📄 arXiv: 2604.08826v1 📥 PDF

作者: Mehran Taghian, Yunke Peng, Xing Huang, Yao Wang, Yaoyuan Wang, Wei Guo, Yuanyong Luo, Tianchi Hu, Junsong Wang, Xin Wang, Hu Liu, Yu Cheng, Ziwei Yu, Hongliang Li, Mehdi Rahimifar, Lei Yan, Xuefei Wang, Zhuang Ma, Lei Liu, Hui Yu, Anandharaju Durai Raju, Hoang Le, Hei Yi Mak, Tanzila Rahman, Shadan Golestan

分类: cs.LG, cs.AI, cs.CL

发布日期: 2026-04-09


💡 一句话要点

研究华为昇腾NPU上HiFloat4格式在LLM预训练中的应用,并优化训练稳定性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 低精度训练 FP4 HiFloat4 昇腾NPU 大语言模型 混合专家模型 模型优化

📋 核心要点

  1. 大型语言模型训练面临计算和内存成本挑战,现有低精度方案仍有优化空间,尤其是在国产硬件平台上的适配。
  2. 探索HiFloat4格式在华为昇腾NPU上的应用,并与MXFP4进行对比,关注其在稠密和MoE模型上的表现。
  3. 通过稳定技术减少FP4训练中的数值退化,使相对误差控制在1%以内,同时保持低精度计算的效率优势。

📝 摘要(中文)

大型基础模型已成为现代机器学习的核心,其性能随模型大小和数据量增长。然而,训练和部署此类模型需要巨大的计算和内存成本,促使了低精度训练技术的发展。最近的研究表明,4位浮点(FP4)格式(如MXFP4和NVFP4)可以成功应用于大型语言模型(LLM)中的线性GEMM运算,与更高精度基线相比,计算吞吐量和内存效率提高了4倍。本文研究了华为昇腾NPU上最近提出的HiFloat4 FP4格式,并在大规模训练环境中系统地将其与MXFP4进行比较。所有实验均在昇腾NPU集群上进行,线性和专家GEMM运算完全以FP4精度执行。我们评估了稠密架构(例如,Pangu和LLaMA风格的模型)和混合专家(MoE)模型,其中标准线性层和专家特定GEMM均以FP4运行。此外,我们探索了专为FP4训练量身定制的稳定技术,这些技术显著减少了数值退化,在保持4位计算效率优势的同时,将相对误差保持在全精度基线的1%以内。我们的结果全面地实证研究了NPU上的FP4训练,并强调了大规模稠密和MoE模型中FP4格式之间的实际权衡。

🔬 方法详解

问题定义:论文旨在解决大型语言模型在华为昇腾NPU上预训练时,计算和内存资源消耗过大的问题。现有方法,如MXFP4,虽然降低了计算需求,但在特定硬件平台上的性能和稳定性仍有提升空间。此外,低精度训练容易导致数值退化,影响模型精度。

核心思路:论文的核心思路是探索和优化HiFloat4格式在昇腾NPU上的应用,并结合稳定技术来缓解低精度训练带来的数值问题。通过在实际训练中对比HiFloat4和MXFP4的性能,找到更适合昇腾NPU的低精度方案。同时,针对FP4训练的特点,设计稳定技术,以保证模型精度。

技术框架:论文的整体框架包括以下几个阶段:首先,在昇腾NPU集群上搭建实验环境。然后,分别使用HiFloat4和MXFP4格式训练稠密模型(如Pangu和LLaMA)和MoE模型。在训练过程中,监控模型的性能和精度,并应用稳定技术来减少数值退化。最后,对比不同格式和稳定技术的效果,评估HiFloat4在昇腾NPU上的适用性。

关键创新:论文的关键创新在于:1) 系统地研究了HiFloat4格式在昇腾NPU上的性能,填补了该领域的研究空白。2) 针对FP4训练,探索并应用了稳定技术,有效缓解了数值退化问题。3) 在稠密和MoE模型上进行了全面的实验,提供了FP4训练在不同模型架构上的实际经验。与现有方法相比,该论文更关注国产硬件平台的适配和优化。

关键设计:论文的关键设计包括:1) 选择Pangu和LLaMA等主流模型作为实验对象,保证了研究的代表性。2) 采用线性GEMM和专家GEMM运算完全以FP4精度执行的方式,充分发挥了低精度计算的优势。3) 精心设计的稳定技术,例如梯度裁剪、学习率调整等,有效控制了数值误差。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,HiFloat4格式在昇腾NPU上具有良好的性能,能够实现与MXFP4相当的计算吞吐量和内存效率。通过应用稳定技术,FP4训练的相对误差可以控制在全精度基线的1%以内,保证了模型的精度。该研究为在国产硬件平台上进行低精度LLM训练提供了有价值的参考。

🎯 应用场景

该研究成果可应用于各种需要大规模语言模型支持的场景,如智能客服、机器翻译、文本生成等。通过降低模型训练和部署的成本,可以加速大模型的普及和应用,尤其是在资源受限的环境下。此外,该研究对于推动国产AI硬件生态的发展具有重要意义。

📄 摘要(原文)

Large foundation models have become central to modern machine learning, with performance scaling predictably with model size and data. However, training and deploying such models incur substantial computational and memory costs, motivating the development of low-precision training techniques. Recent work has demonstrated that 4-bit floating-point (FP4) formats--such as MXFP4 and NVFP4--can be successfully applied to linear GEMM operations in large language models (LLMs), achieving up to 4x improvements in compute throughput and memory efficiency compared to higher-precision baselines. In this work, we investigate the recently proposed HiFloat4 FP4 format for Huawei Ascend NPUs and systematically compare it with MXFP4 in large-scale training settings. All experiments are conducted on Ascend NPU clusters, with linear and expert GEMM operations performed entirely in FP4 precision. We evaluate both dense architectures (e.g., Pangu and LLaMA-style models) and mixture-of-experts (MoE) models, where both standard linear layers and expert-specific GEMMs operate in FP4. Furthermore, we explore stabilization techniques tailored to FP4 training that significantly reduce numerical degradation, maintaining relative error within 1% of full-precision baselines while preserving the efficiency benefits of 4-bit computation. Our results provide a comprehensive empirical study of FP4 training on NPUs and highlight the practical trade-offs between FP4 formats in large-scale dense and MoE models.