Anatomical Heterogeneity in Transformer Language Models

作者: Tomasz Wietrzykowski

分类: cs.LG, cs.CL

发布日期: 2026-03-19

备注: 11 pages, 10 tables. Independent research. Code available at https://github.com/tomaszwi66

💡 一句话要点

揭示Transformer语言模型层间异构性，提出异构预算分配的训练方法

🎯 匹配领域: 支柱一：机器人控制 (Robot Control)

关键词: Transformer语言模型 层间异构性 模型训练 计算资源分配 消融实验

📋 核心要点

现有Transformer语言模型假设层间同质性，对所有层采用统一的计算预算，忽略了层间差异。
论文通过分析层权重可预测性、消融退化等指标，揭示了Transformer语言模型中显著的层间异构性。
提出Growth Transformer Training方法，根据层重要性分配计算预算，显著降低训练成本并提升模型性能。

📝 摘要（中文）

本文通过对一个30层、1.35亿参数的因果语言模型SmolLM2-135M进行实证分析，使用五个诊断指标：权重可预测性（R2）、消融退化、恢复速度、权重操作鲁棒性和结构分析，挑战了Transformer语言模型层间同质性的假设。研究发现显著的层间异构性：（1）层权重遵循强大的数学规律（R2 = 0.91），具有普遍的振荡delta模式（相关性~= -0.50），但预测权重由于非线性误差累积导致灾难性失败。（2）层重要性跨越10^7范围，从关键核心层（L8-11，PPL退化高达+63,419%）到移除能提升性能的反层（L14，L17）。（3）恢复速度与层重要性相关，表明不同的训练需求。（4）在五个测试的操作策略中，只有权重缩放（alpha = 0.9）能保持模型质量。（5）Growth Transformer Training，通过层重要性分配预算，实现了约54%的成本降低。概念验证实验证实了这一点：在相同的参数数量下，验证损失比均匀训练低4.7倍，同时速度快13%。

🔬 方法详解

问题定义：现有Transformer语言模型训练时，对所有层采用相同的计算资源，没有考虑到不同层可能具有不同的重要性和学习需求。这种均匀分配的方式可能导致资源浪费，并且限制了模型的性能。

核心思路：论文的核心思路是打破Transformer语言模型层间同质性的假设，通过实验分析揭示层间异构性，并据此提出一种异构的训练方法。该方法根据不同层的重要性动态分配计算资源，从而提高训练效率和模型性能。

技术框架：论文首先使用五个诊断指标（权重可预测性、消融退化、恢复速度、权重操作鲁棒性和结构分析）对Transformer语言模型进行分析，从而发现层间异构性。然后，基于这些发现，提出了Growth Transformer Training方法，该方法根据层的重要性动态分配计算资源。最后，通过实验验证了该方法的有效性。

关键创新：论文最重要的技术创新点在于发现了Transformer语言模型中显著的层间异构性，并提出了一种基于层重要性的异构训练方法。这种方法能够更有效地利用计算资源，提高训练效率和模型性能。与现有方法相比，该方法不再假设层间同质性，而是根据实际情况动态分配计算资源。

关键设计：Growth Transformer Training的关键设计在于如何确定层的重要性并根据重要性分配计算资源。论文通过消融实验来评估层的重要性，即移除某一层的参数，观察模型性能的变化。性能下降越严重，说明该层越重要。然后，根据层的重要性比例分配计算资源，例如，更重要的层分配更多的训练迭代次数或更大的学习率。

📊 实验亮点

实验结果表明，Growth Transformer Training方法在相同的参数数量下，验证损失比均匀训练低4.7倍，同时训练速度快13%。此外，通过层重要性分配预算，实现了约54%的成本降低。这些结果表明，该方法能够显著提高训练效率和模型性能。

🎯 应用场景

该研究成果可应用于各种Transformer语言模型的训练，尤其是在资源受限的情况下。通过异构预算分配，可以显著降低训练成本，提高模型性能。此外，该研究对于理解Transformer语言模型的内部机制和优化模型结构具有重要意义，有助于开发更高效、更强大的语言模型。

📄 摘要（原文）

Current transformer language models are trained with uniform computational budgets across all layers, implicitly assuming layer homogeneity. We challenge this assumption through empirical analysis of SmolLM2-135M, a 30-layer, 135M-parameter causal language model, using five diagnostic metrics: weight predictability (R2), ablation degradation, recovery speed, weight manipulation robustness, and structural analysis. We find profound anatomical heterogeneity: (1) Layer weights follow strong mathematical regularity (R2 = 0.91) with a universal oscillatory delta pattern (correlation ~= -0.50), yet predicted weights cause catastrophic failure due to nonlinear error accumulation. (2) Layer importance spans a 10^7 range, from a critical core (L8-11, up to +63,419% PPL degradation) to anti-layers (L14, L17) whose removal improves performance. (3) Recovery speed correlates with layer importance, indicating differential training requirements. (4) Only weight scaling (alpha = 0.9) preserves model quality among five tested manipulation strategies. (5) Growth Transformer Training, allocating budget by layer importance, achieves ~54% cost reduction. A proof-of-concept experiment confirms this: 4.7x lower validation loss than uniform training at identical parameter count, while being 13% faster.

Anatomical Heterogeneity in Transformer Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理