To FP8 and Back Again: Quantifying Reduced Precision Effects on LLM Training Stability

📄 arXiv: 2405.18710v2 📥 PDF

作者: Joonhyung Lee, Jeongin Bae, Byeongwook Kim, Se Jung Kwon, Dongsoo Lee

分类: cs.LG, cs.AI

发布日期: 2024-05-29 (更新: 2025-03-25)


💡 一句话要点

研究FP8对LLM训练稳定性的影响,提出评估方法并分析精度与稳定性的关系

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 低精度训练 FP8 LLM训练 训练稳定性 损失景观锐度

📋 核心要点

  1. 现有FP8训练方法在LLM训练中稳定性不足,难以作为BF16的经济替代方案。
  2. 通过模拟浮点表示的位减少,分析表示能力与训练稳定性之间的关系。
  3. 提出新的评估技术和指标,量化自回归语言模型损失景观的锐度。

📝 摘要(中文)

大型语言模型(LLM)预训练的巨大计算成本促使人们对使用低精度浮点表示来加速训练过程产生了浓厚的兴趣。BrainFloat16 (BF16)精度已成为LLM训练的事实标准,并在最新一代加速器中得到硬件支持。随着FP8的引入,这一趋势进一步发展。然而,FP16的经验表明其稳定性不如BF16,这引发了人们对FP8是否能成为LLM训练中具有成本效益的选择的担忧。我们认为,低精度训练方案必须具有与其高精度方案相似的训练稳定性和超参数敏感性,才能具有成本效益。然而,我们发现目前可用的FP8训练方法不够稳健,无法作为经济的替代方案。这促使我们从随机种子、学习率和数据集的角度来研究低精度LLM训练的稳定性。为此,我们提出了一种新的评估技术和一种新的指标来量化自回归语言模型中的损失景观锐度。通过模拟浮点表示中位数的递增减少,我们分析了表示能力和训练稳定性之间的关系,旨在帮助未来对该领域的研究。

🔬 方法详解

问题定义:论文旨在解决在LLM训练中使用FP8等低精度浮点数格式时,训练稳定性不足的问题。现有方法在FP8训练中表现出对超参数和随机种子的敏感性,导致训练结果不稳定,无法有效替代BF16等高精度格式,从而限制了低精度训练的实际应用价值。

核心思路:论文的核心思路是通过系统性地分析不同精度浮点数格式对LLM训练稳定性的影响,量化表示能力与训练稳定性之间的关系。通过模拟不同位宽的浮点数,并结合新的评估技术和指标,深入理解低精度训练的内在机制,为未来开发更稳定的低精度训练方法提供指导。

技术框架:论文的技术框架主要包括以下几个部分:1) 模拟不同位宽的浮点数格式,包括FP8及其他中间精度;2) 使用这些模拟的浮点数格式训练LLM;3) 提出新的评估技术,例如量化损失景观锐度的指标,用于评估训练的稳定性;4) 分析不同浮点数格式下,训练的稳定性与超参数敏感性之间的关系。

关键创新:论文的关键创新在于:1) 提出了一种新的评估技术,用于量化自回归语言模型损失景观的锐度,从而更准确地评估训练的稳定性;2) 系统性地分析了不同精度浮点数格式对LLM训练稳定性的影响,揭示了表示能力与训练稳定性之间的关系;3) 通过模拟不同位宽的浮点数,为研究低精度训练提供了一种灵活且可控的方法。

关键设计:论文的关键设计包括:1) 损失景观锐度指标的定义,需要仔细选择合适的计算方法,以准确反映损失函数的局部曲率;2) 模拟浮点数格式时,需要考虑不同位宽的指数和尾数分配,以及舍入策略等因素;3) 实验中需要选择合适的LLM架构和数据集,以保证结果的代表性和可推广性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文通过实验发现,当前可用的FP8训练方法在LLM训练中不够稳定,对超参数和随机种子敏感。通过提出的评估技术,量化了不同精度浮点数格式下训练的稳定性,并分析了表示能力与训练稳定性之间的关系。这些结果为未来开发更稳定的低精度训练方法提供了重要的参考依据。

🎯 应用场景

该研究成果可应用于降低大型语言模型训练的计算成本和能耗,加速模型开发周期。通过更深入地理解低精度训练的机制,可以开发出更稳定、更高效的低精度训练方法,从而使更多研究者和开发者能够负担得起LLM的训练和部署。此外,该研究也有助于推动AI硬件的发展,促进对低精度计算单元的优化设计。

📄 摘要(原文)

The massive computational costs associated with large language model (LLM) pretraining have spurred great interest in reduced-precision floating-point representations to accelerate the process. As a result, the BrainFloat16 (BF16) precision has become the de facto standard for LLM training, with hardware support included in recent generations of accelerators. This trend has gone even further in the latest processors, where FP8 has recently been introduced. However, prior experience with FP16, which was found to be less stable than BF16, raises concerns as to whether FP8, with even fewer bits than FP16, can be a cost-effective option for LLM training. We argue that reduced-precision training schemes must have similar training stability and hyperparameter sensitivities to their higher-precision counterparts in order to be cost-effective. However, we find that currently available methods for FP8 training are not robust enough to allow their use as economical replacements. This prompts us to investigate the stability of reduced-precision LLM training in terms of robustness across random seeds, learning rates, and datasets. To this end, we propose new evaluation techniques and a new metric for quantifying loss landscape sharpness in autoregressive language models. By simulating incremental bit reductions in floating-point representations, we analyze the relationship between representational power and training stability with the intent of aiding future research into the field.