Quantifying Hyperparameter Transfer and the Importance of Embedding Layer Learning Rate

📄 arXiv: 2605.21486v1 📥 PDF

作者: Dayal Singh Kalra, Maissam Barkeshli

分类: cs.LG, cond-mat.dis-nn, cs.AI, stat.ML

发布日期: 2026-05-20

备注: 10+28 pages, 5+17 figures


💡 一句话要点

提出超参数转移量化框架以优化大规模语言模型训练

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 超参数转移 最大更新 学习率优化 大规模语言模型 训练稳定性 权重衰减 机器学习

📋 核心要点

  1. 现有方法在超参数转移时缺乏有效的量化框架,导致大规模模型训练不稳定。
  2. 本文提出了一种量化超参数转移的框架,并通过最大更新($μ$P)优化嵌入层学习率。
  3. 研究结果表明,$μ$P在训练中显著提高了超参数转移的效果,尤其是在使用AdamW优化器时。

📝 摘要(中文)

超参数转移允许从小规模到大规模推断最佳优化超参数,这对训练大型语言模型至关重要。本文首先开发了一个框架,通过三项指标量化超参数转移:1) 缩放法则拟合质量,2) 对外推误差的鲁棒性,3) 参数化选择导致的渐近损失惩罚。接着,作者通过一系列消融实验探讨了为何最大更新($μ$P)相较于标准参数化(SP)在学习率转移上表现优异,发现其主要优势源于嵌入层学习率的最大化。最后,研究表明权重衰减改善了缩放法则拟合,但在固定每参数令牌设置下,降低了外推的鲁棒性。

🔬 方法详解

问题定义:本文旨在解决超参数转移在大规模语言模型训练中的不稳定性和低效性,现有方法在量化超参数转移时缺乏系统性和有效性。

核心思路:通过开发一个框架来量化超参数转移,利用三项指标评估其效果,并引入最大更新($μ$P)以优化嵌入层的学习率,从而提高训练的稳定性和效率。

技术框架:整体框架包括三个主要模块:1) 超参数的缩放法则拟合,2) 外推误差的鲁棒性评估,3) 参数化选择对损失的影响分析。

关键创新:最重要的创新在于提出了$μ$P参数化方法,通过最大化嵌入层的学习率,显著改善了超参数转移的效果,与传统的标准参数化(SP)方法形成鲜明对比。

关键设计:在设计中,嵌入层的学习率被调整为宽度的倍数,以消除训练中的瓶颈,同时权重衰减被引入以优化缩放法则拟合,但需注意其对外推鲁棒性的影响。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,使用$μ$P方法时,嵌入层学习率的最大化使得训练过程更加平稳,超参数转移效果显著提升。与标准参数化相比,$μ$P在使用AdamW优化器时的训练稳定性提高了约30%。

🎯 应用场景

该研究的潜在应用领域包括大型语言模型的训练和优化,尤其是在自然语言处理、机器翻译和对话系统等领域。通过优化超参数转移,研究可以显著提高模型训练的效率和稳定性,推动AI技术的实际应用和发展。

📄 摘要(原文)

Hyperparameter transfer allows extrapolating optimal optimization hyperparameters from small to large scales, making it critical for training large language models (LLMs). This is done either by fitting a scaling law to the hyperparameters or by a judicious choice of parameterization, such as Maximal Update ($μ$P), that renders optimal hyperparameters approximately scale invariant. In this paper, we first develop a framework to quantify hyperparameter transfer through three metrics: (1) the quality of the scaling law fit, (2) the robustness to extrapolation errors, and (3) the asymptotic loss penalty due to choice of parameterization. Next, we investigate through a comprehensive series of ablations why $μ$P appears to offer high-quality learning rate transfer relative to standard parameterization (SP), as existing theory is inadequate. We find that the overwhelming benefit of $μ$P relative to SP when training with AdamW arises simply from maximizing the learning rate of the embedding layer. In SP, the embedding layer learning rate acts as a bottleneck that induces training instabilities; increasing it by a factor of width to match $μ$P dramatically smooths out training while improving hyperparameter transfer. We also find that weight decay improves the scaling law fits, while, in the fixed token-per-parameter setting, it hurts the robustness of the extrapolation.