TetraJet-v2: Accurate NVFP4 Training for Large Language Models with Oscillation Suppression and Outlier Control

作者: Yuxiang Chen, Xiaoming Xu, Pengle Zhang, Michael Beyer, Martin Rapp, Jun Zhu, Jianfei Chen

分类: cs.LG, cs.AI

发布日期: 2025-10-31

💡 一句话要点

TetraJet-v2：通过抑制振荡和控制异常值实现大语言模型精确NVFP4训练

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 低精度训练 量化 NVFP4 权重振荡 异常值控制 模型优化

📋 核心要点

现有低精度量化训练方法在训练大型语言模型时，面临权重振荡和异常值带来的精度损失挑战。
TetraJet-v2通过无偏双块量化、OsciReset振荡抑制和OutControl异常值控制，显著提升了低精度训练的稳定性。
实验表明，TetraJet-v2在不同规模的模型和数据集上，均优于现有FP4训练方法，并大幅缩小了与全精度训练的性能差距。

📝 摘要（中文）

大语言模型（LLM）的训练成本极其高昂，推动了对低精度全量化训练（FQT）的兴趣。虽然像NVFP4这样的新型4位格式提供了显著的效率提升，但在如此低的精度下实现接近无损的训练仍然具有挑战性。我们介绍了TetraJet-v2，这是一种端到端的4位FQT方法，它利用NVFP4来处理所有线性层中的激活、权重和梯度。我们发现了阻碍低精度LLM训练的两个关键问题：权重振荡和异常值。为了解决这些问题，我们提出了：1) 一种用于NVFP4线性层的无偏双块量化方法，2) OsciReset，一种抑制权重振荡的算法，以及3) OutControl，一种保持异常值精度的算法。TetraJet-v2在预训练LLM上始终优于之前的FP4训练方法，模型大小高达370M，数据大小高达200B tokens，平均将性能差距缩小到全精度训练的51.3%。

🔬 方法详解

问题定义：论文旨在解决大语言模型低精度全量化训练（FQT）中，由于权重振荡和异常值导致的精度损失问题。现有的低精度训练方法难以在保持性能的同时，有效利用4位量化格式（如NVFP4）带来的效率提升。权重振荡导致训练不稳定，而异常值的存在会严重影响模型的收敛和泛化能力。

核心思路：论文的核心思路是通过一系列技术手段，抑制权重振荡并控制异常值，从而提高低精度训练的稳定性和精度。具体来说，通过无偏双块量化减少量化误差，使用OsciReset算法抑制权重振荡，并利用OutControl算法保持异常值的精度。这种组合策略旨在克服低精度训练中的固有挑战。

技术框架：TetraJet-v2是一个端到端的4位FQT方法，它在所有线性层中对激活、权重和梯度使用NVFP4格式。其主要组成部分包括：无偏双块量化模块、OsciReset振荡抑制模块和OutControl异常值控制模块。训练流程与标准的大语言模型预训练流程类似，但在量化和反量化过程中集成了这些模块。

关键创新：论文的关键创新在于三个方面：一是提出了无偏双块量化方法，减少了NVFP4量化带来的偏差；二是设计了OsciReset算法，有效抑制了权重振荡，提高了训练的稳定性；三是开发了OutControl算法，通过特殊处理保持了异常值的精度，避免了信息损失。这些创新共同作用，使得TetraJet-v2能够在低精度下实现接近全精度的训练效果。

关键设计：无偏双块量化方法通过将权重分成两个块进行量化，并引入校正项来减少量化偏差。OsciReset算法通过监测权重的振荡幅度，并在超过阈值时重置权重，从而抑制振荡。OutControl算法通过动态调整量化范围，确保异常值能够被准确表示。具体的参数设置，例如OsciReset的阈值和OutControl的量化范围调整策略，需要根据具体的模型和数据集进行调整。

🖼️ 关键图片

📊 实验亮点

TetraJet-v2在高达370M参数的模型和200B tokens的数据集上进行了实验，结果表明其性能始终优于之前的FP4训练方法。与全精度训练相比，TetraJet-v2平均将性能差距缩小了51.3%，证明了其在低精度训练方面的显著优势。这些结果表明，TetraJet-v2是目前最先进的低精度大语言模型训练方法之一。

🎯 应用场景

TetraJet-v2技术可广泛应用于大语言模型的低成本训练和部署。通过降低计算和存储需求，该方法使得在资源受限的环境中训练和运行大型模型成为可能，例如移动设备、边缘计算等。此外，该技术还有助于加速AI模型的开发周期，降低研发成本，推动人工智能技术的普及。

📄 摘要（原文）

Large Language Models (LLMs) training is prohibitively expensive, driving interest in low-precision fully-quantized training (FQT). While novel 4-bit formats like NVFP4 offer substantial efficiency gains, achieving near-lossless training at such low precision remains challenging. We introduce TetraJet-v2, an end-to-end 4-bit FQT method that leverages NVFP4 for activations, weights, and gradients in all linear layers. We identify two critical issues hindering low-precision LLM training: weight oscillation and outliers. To address these, we propose: 1) an unbiased double-block quantization method for NVFP4 linear layers, 2) OsciReset, an algorithm to suppress weight oscillation, and 3) OutControl, an algorithm to retain outlier accuracy. TetraJet-v2 consistently outperforms prior FP4 training methods on pre-training LLMs across varying model sizes up to 370M and data sizes up to 200B tokens, reducing the performance gap to full-precision training by an average of 51.3%.

TetraJet-v2: Accurate NVFP4 Training for Large Language Models with Oscillation Suppression and Outlier Control

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理