SpanNorm: Reconciling Training Stability and Performance in Deep Transformers
作者: Chao Wang, Bei Li, Jiaqi Zhang, Xinyu Liu, Yuchun Fan, Linkun Lyu, Xin Chen, Jingang Wang, Tong Xiao, Peng Pei, Xunliang Cai
分类: cs.CL, cs.AI, cs.LG
发布日期: 2026-01-30
💡 一句话要点
SpanNorm:平衡深度Transformer训练稳定性和性能的新型归一化方法
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: Transformer 归一化 训练稳定性 深度学习 大型语言模型 残差连接 信号传播
📋 核心要点
- 深度Transformer的训练面临稳定性与性能的权衡,PreNorm稳定但性能受限,PostNorm性能强但训练不稳定。
- SpanNorm通过跨越Transformer块的残差连接稳定信号传播,并采用PostNorm风格的归一化增强模型性能。
- 实验表明,SpanNorm在密集和MoE场景中均优于标准归一化方法,提升了Transformer的性能和稳定性。
📝 摘要(中文)
大型语言模型(LLM)的成功依赖于深度Transformer架构的稳定训练。一个关键的设计选择是归一化层的位置,这导致了一个根本性的权衡:“PreNorm”架构确保了训练稳定性,但牺牲了深度模型中潜在的性能下降;而“PostNorm”架构提供了强大的性能,但遭受了严重的训练不稳定。在这项工作中,我们提出了SpanNorm,一种旨在通过整合两种范例的优势来解决这一困境的新技术。在结构上,SpanNorm建立了一个干净的残差连接,跨越整个Transformer块以稳定信号传播,同时采用PostNorm风格的计算,对聚合输出进行归一化以提高模型性能。我们提供了一个理论分析,表明SpanNorm与有原则的缩放策略相结合,可以在整个网络中保持有界的信号方差,防止困扰PostNorm模型的梯度问题,并减轻PreNorm的表示崩溃。在经验上,SpanNorm在密集和混合专家(MoE)场景中始终优于标准归一化方案,为更强大和稳定的Transformer架构铺平了道路。
🔬 方法详解
问题定义:深度Transformer模型的训练中,归一化层的位置选择是一个关键问题。PreNorm虽然能保证训练的稳定性,但会限制模型的表达能力,导致性能下降。PostNorm虽然具有更强的表达能力,但容易出现训练不稳定,如梯度消失或爆炸等问题。因此,如何设计一种既能保证训练稳定性,又能充分发挥模型性能的归一化方法是本文要解决的核心问题。
核心思路:SpanNorm的核心思路是结合PreNorm和PostNorm的优点,同时避免它们的缺点。它通过建立一个跨越整个Transformer块的残差连接来稳定信号传播,类似于PreNorm,从而保证训练的稳定性。同时,它采用PostNorm风格的计算,对聚合后的输出进行归一化,从而增强模型的表达能力和性能。
技术框架:SpanNorm的整体架构与标准的Transformer块类似,主要区别在于归一化层的位置和残差连接的方式。具体来说,SpanNorm首先将输入信号通过一个残差连接直接传递到Transformer块的输出端。然后,在Transformer块内部,采用PostNorm风格的计算,即在每个子层的输出之后进行归一化。最后,将归一化后的输出与残差连接传递过来的输入信号相加,得到最终的输出。
关键创新:SpanNorm最重要的技术创新在于它将PreNorm的稳定性和PostNorm的性能优势结合起来。通过跨越整个Transformer块的残差连接,SpanNorm可以有效地稳定信号传播,防止梯度消失或爆炸。同时,通过采用PostNorm风格的计算,SpanNorm可以增强模型的表达能力,提高模型的性能。此外,论文还提出了一个有原则的缩放策略,进一步保证了信号方差的有界性。
关键设计:SpanNorm的关键设计包括以下几个方面:1) 跨越整个Transformer块的残差连接,用于稳定信号传播;2) PostNorm风格的归一化计算,用于增强模型表达能力;3) 有原则的缩放策略,用于保证信号方差的有界性。具体的参数设置和网络结构与标准的Transformer块类似,可以根据具体的应用场景进行调整。
📊 实验亮点
SpanNorm在多个实验中均取得了显著的性能提升。例如,在语言建模任务中,SpanNorm在密集模型和MoE模型上都优于标准的归一化方法,降低了困惑度。理论分析表明,SpanNorm能够保持信号方差的有界性,从而保证训练的稳定性。这些结果表明,SpanNorm是一种有效的归一化方法,可以提高深度Transformer模型的性能和稳定性。
🎯 应用场景
SpanNorm具有广泛的应用前景,可以应用于各种基于Transformer的深度学习模型中,例如自然语言处理、计算机视觉和语音识别等领域。它可以提高模型的训练稳定性和性能,从而使得模型能够更好地处理复杂的任务。此外,SpanNorm还可以应用于更大规模的模型训练中,为构建更强大的AI系统提供支持。
📄 摘要(原文)
The success of Large Language Models (LLMs) hinges on the stable training of deep Transformer architectures. A critical design choice is the placement of normalization layers, leading to a fundamental trade-off: the
PreNorm'' architecture ensures training stability at the cost of potential performance degradation in deep models, while thePostNorm'' architecture offers strong performance but suffers from severe training instability. In this work, we propose SpanNorm, a novel technique designed to resolve this dilemma by integrating the strengths of both paradigms. Structurally, SpanNorm establishes a clean residual connection that spans the entire transformer block to stabilize signal propagation, while employing a PostNorm-style computation that normalizes the aggregated output to enhance model performance. We provide a theoretical analysis demonstrating that SpanNorm, combined with a principled scaling strategy, maintains bounded signal variance throughout the network, preventing the gradient issues that plague PostNorm models, and also alleviating the representation collapse of PreNorm. Empirically, SpanNorm consistently outperforms standard normalization schemes in both dense and Mixture-of-Experts (MoE) scenarios, paving the way for more powerful and stable Transformer architectures.