Bounded Hyperbolic Tangent: A Stable and Efficient Alternative to Pre-Layer Normalization in Large Language Models
作者: Hoyoon Byun, Youngjun Choi, Taero Kim, Sungrae Park, Kyungwoo Song
分类: cs.CL, cs.AI
发布日期: 2025-12-26 (更新: 2026-02-03)
💡 一句话要点
提出有界双曲正切(BHyT),提升大语言模型训练稳定性和效率,替代Pre-LN。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 预层归一化 训练稳定性 训练效率 有界激活函数 深度学习 自然语言处理
📋 核心要点
- Pre-LN在大模型中被广泛使用,但存在计算效率低和深度增加导致训练不稳定的问题。
- BHyT通过数据驱动的输入边界和tanh非线性结合,限制激活值的范围,从而提高稳定性和效率。
- 实验结果表明,BHyT在预训练阶段比RMSNorm更快更稳定,并在推理性能上与之匹敌。
📝 摘要(中文)
预层归一化(Pre-LN)是大语言模型(LLM)的事实标准,对于稳定的预训练和有效的迁移学习至关重要。然而,Pre-LN由于重复的统计计算而效率低下,并受到深度诅咒的影响。随着层数的增加,隐藏状态的幅度和方差会增大,从而破坏训练的稳定性。动态Tanh (DyT)等面向效率的无归一化方法提高了速度,但在深度上仍然脆弱。为了共同解决稳定性和效率问题,我们提出了一种替代Pre-LN的即插即用方法:有界双曲正切(BHyT)。BHyT将tanh非线性与显式的、数据驱动的输入边界相结合,以使激活保持在非饱和范围内。它可以防止激活幅度和方差在深度上的增长,并具有理论上的稳定性保证。在效率方面,BHyT每个块只计算一次精确的统计信息,并用轻量级的方差近似代替第二次归一化,从而提高效率。实验表明,BHyT在预训练期间表现出更高的稳定性和效率,与RMSNorm相比,平均训练速度提高了15.8%,平均token生成吞吐量提高了4.2%,同时在语言理解和推理基准测试中匹配或超过了其推理性能和鲁棒性。
🔬 方法详解
问题定义:现有大语言模型训练中,预层归一化(Pre-LN)方法虽然保证了训练的稳定性,但由于需要重复计算统计量,导致训练效率较低。此外,随着模型深度的增加,隐藏层状态的幅度和方差会逐渐增大,使得训练过程变得不稳定,即所谓的“深度诅咒”。
核心思路:BHyT的核心思路是通过限制激活值的范围来解决稳定性和效率问题。具体来说,它使用一个数据驱动的输入边界来约束tanh激活函数的输入,使得激活值始终保持在一个非饱和的范围内。这样既可以防止激活值过大导致训练不稳定,又可以避免梯度消失问题。
技术框架:BHyT是一个即插即用的模块,可以直接替换Pre-LN。其主要流程包括:首先,使用数据驱动的方法确定输入边界;然后,将输入限制在该边界内;最后,使用tanh激活函数进行非线性变换。为了提高效率,BHyT在一个block内只计算一次精确的统计信息,并使用轻量级的方差近似来代替第二次归一化。
关键创新:BHyT的关键创新在于将tanh激活函数与显式的数据驱动的输入边界相结合。这种方法既保证了训练的稳定性,又提高了训练效率。与传统的Pre-LN方法相比,BHyT避免了重复的统计计算,从而提高了效率。与无归一化方法相比,BHyT通过限制激活值的范围,提高了训练的稳定性。
关键设计:BHyT的关键设计包括:1) 数据驱动的输入边界:通过分析训练数据,动态地确定输入边界,以适应不同的数据集和模型结构。2) 轻量级的方差近似:使用一种高效的方差近似方法来代替第二次归一化,从而进一步提高效率。3) Tanh激活函数:选择tanh作为激活函数,因为它具有良好的非线性特性,并且可以将激活值限制在[-1, 1]的范围内。
🖼️ 关键图片
📊 实验亮点
BHyT在预训练阶段表现出显著的优势。实验结果表明,与RMSNorm相比,BHyT平均训练速度提高了15.8%,平均token生成吞吐量提高了4.2%。同时,BHyT在语言理解和推理基准测试中匹配或超过了RMSNorm的推理性能和鲁棒性。这些结果表明,BHyT是一种更稳定、更高效的大语言模型训练方法。
🎯 应用场景
BHyT可应用于各种需要训练大规模语言模型的场景,例如自然语言处理、机器翻译、文本生成等。其提升的训练效率和稳定性可以加速模型开发过程,降低训练成本,并提高模型的性能。此外,BHyT的即插即用特性使其易于集成到现有的模型架构中,具有广泛的应用前景。
📄 摘要(原文)
Pre-Layer Normalization (Pre-LN) is the de facto choice for large language models (LLMs) and is crucial for stable pretraining and effective transfer learning. However, Pre-LN is inefficient due to repeated statistical calculations and suffers from the curse of depth. As layers grow, the magnitude and variance of the hidden state escalate, destabilizing training. Efficiency-oriented normalization-free methods such as Dynamic Tanh (DyT) improve speed but remain fragile at depth. To jointly address stability and efficiency, we propose Bounded Hyperbolic Tanh (BHyT), a drop-in replacement for Pre-LN. BHyT couples a tanh nonlinearity with explicit, data-driven input bounding to keep activations within a non-saturating range. It prevents depth-wise growth in activation magnitude and variance and comes with a theoretical stability guarantee. For efficiency, BHyT computes exact statistics once per block and replaces a second normalization with a lightweight variance approximation, enhancing efficiency. Empirically, BHyT demonstrates improved stability and efficiency during pretraining, achieving an average of 15.8% faster training and an average of 4.2% higher token generation throughput compared to RMSNorm., while matching or surpassing its inference performance and robustness across language understanding and reasoning benchmarks. Our code is available at: https://anonymous.4open.science/r/BHyT