Anatomical Heterogeneity in Transformer Language Models

📄 arXiv: 2603.19348v1 📥 PDF

作者: Tomasz Wietrzykowski

分类: cs.LG, cs.CL

发布日期: 2026-03-19

备注: 11 pages, 10 tables. Independent research. Code available at https://github.com/tomaszwi66


💡 一句话要点

揭示Transformer语言模型层间异构性,提出异构预算分配的训练方法

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: Transformer语言模型 层间异构性 模型训练 计算资源分配 消融实验

📋 核心要点

  1. 现有Transformer语言模型假设层间同质性,对所有层采用统一的计算预算,忽略了层间差异。
  2. 论文通过分析层权重可预测性、消融退化等指标,揭示了Transformer语言模型中显著的层间异构性。
  3. 提出Growth Transformer Training方法,根据层重要性分配计算预算,显著降低训练成本并提升模型性能。

📝 摘要(中文)

本文通过对一个30层、1.35亿参数的因果语言模型SmolLM2-135M进行实证分析,使用五个诊断指标:权重可预测性(R2)、消融退化、恢复速度、权重操作鲁棒性和结构分析,挑战了Transformer语言模型层间同质性的假设。研究发现显著的层间异构性:(1)层权重遵循强大的数学规律(R2 = 0.91),具有普遍的振荡delta模式(相关性~= -0.50),但预测权重由于非线性误差累积导致灾难性失败。(2)层重要性跨越10^7范围,从关键核心层(L8-11,PPL退化高达+63,419%)到移除能提升性能的反层(L14,L17)。(3)恢复速度与层重要性相关,表明不同的训练需求。(4)在五个测试的操作策略中,只有权重缩放(alpha = 0.9)能保持模型质量。(5)Growth Transformer Training,通过层重要性分配预算,实现了约54%的成本降低。概念验证实验证实了这一点:在相同的参数数量下,验证损失比均匀训练低4.7倍,同时速度快13%。

🔬 方法详解

问题定义:现有Transformer语言模型训练时,对所有层采用相同的计算资源,没有考虑到不同层可能具有不同的重要性和学习需求。这种均匀分配的方式可能导致资源浪费,并且限制了模型的性能。

核心思路:论文的核心思路是打破Transformer语言模型层间同质性的假设,通过实验分析揭示层间异构性,并据此提出一种异构的训练方法。该方法根据不同层的重要性动态分配计算资源,从而提高训练效率和模型性能。

技术框架:论文首先使用五个诊断指标(权重可预测性、消融退化、恢复速度、权重操作鲁棒性和结构分析)对Transformer语言模型进行分析,从而发现层间异构性。然后,基于这些发现,提出了Growth Transformer Training方法,该方法根据层的重要性动态分配计算资源。最后,通过实验验证了该方法的有效性。

关键创新:论文最重要的技术创新点在于发现了Transformer语言模型中显著的层间异构性,并提出了一种基于层重要性的异构训练方法。这种方法能够更有效地利用计算资源,提高训练效率和模型性能。与现有方法相比,该方法不再假设层间同质性,而是根据实际情况动态分配计算资源。

关键设计:Growth Transformer Training的关键设计在于如何确定层的重要性并根据重要性分配计算资源。论文通过消融实验来评估层的重要性,即移除某一层的参数,观察模型性能的变化。性能下降越严重,说明该层越重要。然后,根据层的重要性比例分配计算资源,例如,更重要的层分配更多的训练迭代次数或更大的学习率。

📊 实验亮点

实验结果表明,Growth Transformer Training方法在相同的参数数量下,验证损失比均匀训练低4.7倍,同时训练速度快13%。此外,通过层重要性分配预算,实现了约54%的成本降低。这些结果表明,该方法能够显著提高训练效率和模型性能。

🎯 应用场景

该研究成果可应用于各种Transformer语言模型的训练,尤其是在资源受限的情况下。通过异构预算分配,可以显著降低训练成本,提高模型性能。此外,该研究对于理解Transformer语言模型的内部机制和优化模型结构具有重要意义,有助于开发更高效、更强大的语言模型。

📄 摘要(原文)

Current transformer language models are trained with uniform computational budgets across all layers, implicitly assuming layer homogeneity. We challenge this assumption through empirical analysis of SmolLM2-135M, a 30-layer, 135M-parameter causal language model, using five diagnostic metrics: weight predictability (R2), ablation degradation, recovery speed, weight manipulation robustness, and structural analysis. We find profound anatomical heterogeneity: (1) Layer weights follow strong mathematical regularity (R2 = 0.91) with a universal oscillatory delta pattern (correlation ~= -0.50), yet predicted weights cause catastrophic failure due to nonlinear error accumulation. (2) Layer importance spans a 10^7 range, from a critical core (L8-11, up to +63,419% PPL degradation) to anti-layers (L14, L17) whose removal improves performance. (3) Recovery speed correlates with layer importance, indicating differential training requirements. (4) Only weight scaling (alpha = 0.9) preserves model quality among five tested manipulation strategies. (5) Growth Transformer Training, allocating budget by layer importance, achieves ~54% cost reduction. A proof-of-concept experiment confirms this: 4.7x lower validation loss than uniform training at identical parameter count, while being 13% faster.