Understanding the Mechanisms of Fast Hyperparameter Transfer

📄 arXiv: 2512.22768v1 📥 PDF

作者: Nikhil Ghosh, Denny Wu, Alberto Bietti

分类: cs.LG, cs.AI, stat.ML

发布日期: 2025-12-28

备注: 43 pages


💡 一句话要点

提出超参数快速迁移框架,揭示μP下模型宽度缩放的优化机制

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 超参数优化 迁移学习 模型缩放 深度学习 计算效率 μP 宽度缩放 大语言模型

📋 核心要点

  1. 现有超参数优化方法在大规模深度学习模型中计算成本过高,限制了模型性能。
  2. 论文提出超参数快速迁移框架,通过尺度感知的超参数,将小规模网格搜索结果迁移到大规模模型。
  3. 理论分析和实验验证表明,该方法在特定条件下具有计算优势,并揭示了模型宽度缩放的优化机制。

📝 摘要(中文)

深度学习模型规模的日益增长使得标准的超参数(HP)优化变得极其昂贵。一个有希望的解决方案是使用尺度感知的超参数,它可以实现将最优HP从小型网格搜索直接迁移到大型模型,且性能损失最小。为了理解这种迁移策略的原则,我们开发了一个通用的概念框架,用于推理跨尺度的HP迁移,将迁移描述为快速的,当它引起的次优性以比有限尺度性能差距更快的速度渐近消失时。我们正式证明,对于计算最优的网格搜索,快速迁移等价于有用的迁移,这意味着迁移在渐近意义上比直接调优更具有计算效率。虽然实证研究发现,最大更新参数化($μ$P)在缩放模型宽度时表现出快速迁移,但其机制仍然知之甚少。我们通过展示合成设置来表明,这种性质关键取决于问题结构,在这些设置中,即使在$μ$P下,迁移要么提供可证明的计算优势,要么无法胜过直接调优。为了解释实践中观察到的快速迁移,我们推测分解优化轨迹揭示了损失减少的两个贡献:(1)决定最优HP的宽度稳定分量,以及(2)随着宽度改善但微弱扰动HP最优值的宽度敏感分量。我们提供了各种设置(包括大型语言模型预训练)的经验证据来支持这一假设。

🔬 方法详解

问题定义:论文旨在解决深度学习模型超参数优化中,随着模型规模增大,传统网格搜索等方法计算成本急剧增加的问题。现有方法难以将小规模模型上搜索到的超参数直接应用于大规模模型,导致需要重新进行耗时的超参数搜索。

核心思路:论文的核心思路是研究超参数在不同模型规模之间的迁移能力,特别是当使用最大更新参数化($μ$P)进行模型宽度缩放时。通过理论分析和实验验证,揭示超参数快速迁移的机制,并探究其在不同问题结构下的适用性。

技术框架:论文构建了一个通用的概念框架,用于分析跨尺度的超参数迁移。该框架将迁移分为“快速迁移”和“非快速迁移”,并定义了快速迁移的数学条件。此外,论文还提出了一个分解优化轨迹的假设,将损失减少分解为宽度稳定分量和宽度敏感分量。

关键创新:论文最重要的技术创新点在于提出了超参数快速迁移的概念,并将其与计算最优的网格搜索联系起来,证明了快速迁移在渐近意义上比直接调优更具有计算效率。此外,论文还提出了分解优化轨迹的假设,为理解超参数迁移的机制提供了新的视角。

关键设计:论文的关键设计包括:1) 定义了超参数快速迁移的数学条件;2) 设计了合成实验来验证理论分析;3) 提出了分解优化轨迹的假设,并使用经验数据进行验证;4) 在大型语言模型预训练等实际场景中验证了该方法的有效性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文通过合成实验和实际应用验证了超参数快速迁移的有效性。在特定问题结构下,使用$μ$P进行模型宽度缩放时,超参数迁移可以提供可证明的计算优势。此外,在大型语言模型预训练等场景中,实验结果支持了分解优化轨迹的假设,并验证了宽度稳定分量对最优超参数的决定性作用。

🎯 应用场景

该研究成果可应用于大规模深度学习模型的超参数优化,例如大型语言模型的预训练和微调。通过利用小规模模型上的超参数搜索结果,可以显著降低大规模模型的训练成本,加速模型开发周期,并提升模型性能。该方法还有潜力应用于其他需要超参数优化的机器学习任务。

📄 摘要(原文)

The growing scale of deep learning models has rendered standard hyperparameter (HP) optimization prohibitively expensive. A promising solution is the use of scale-aware hyperparameters, which can enable direct transfer of optimal HPs from small-scale grid searches to large models with minimal performance loss. To understand the principles governing such transfer strategy, we develop a general conceptual framework for reasoning about HP transfer across scale, characterizing transfer as fast when the suboptimality it induces vanishes asymptotically faster than the finite-scale performance gap. We show formally that fast transfer is equivalent to useful transfer for compute-optimal grid search, meaning that transfer is asymptotically more compute-efficient than direct tuning. While empirical work has found that the Maximal Update Parameterization ($μ$P) exhibits fast transfer when scaling model width, the mechanisms remain poorly understood. We show that this property depends critically on problem structure by presenting synthetic settings where transfer either offers provable computational advantage or fails to outperform direct tuning even under $μ$P. To explain the fast transfer observed in practice, we conjecture that decomposing the optimization trajectory reveals two contributions to loss reduction: (1) a width-stable component that determines the optimal HPs, and (2) a width-sensitive component that improves with width but weakly perturbs the HP optimum. We present empirical evidence for this hypothesis across various settings, including large language model pretraining.