Completed Hyperparameter Transfer across Modules, Width, Depth, Batch and Duration
作者: Bruno Mlodozeniec, Pierre Ablin, Louis Béthune, Dan Busbridge, Michal Klein, Jason Ramapuram, Marco Cuturi
分类: cs.LG, cs.AI, stat.ML
发布日期: 2025-12-26
💡 一句话要点
提出完整超参数转移方法以优化大规模模型训练
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 超参数调优 模型训练 深度学习 模块化设计 性能优化
📋 核心要点
- 现有方法在超参数调优时面临高维空间的挑战,导致优化过程复杂且效率低下。
- 本文提出Complete$^{(d)}$参数化方法,统一处理模型的宽度、深度、批量大小和训练时长的缩放问题。
- 实验结果显示,采用转移的模块级超参数后,大型语言模型的训练速度显著提升,优化效果明显。
📝 摘要(中文)
超参数调优对大规模模型的训练稳定性和最终性能有显著影响。近期的研究如$μ$P已实现了在不同模型规模间转移最佳全局超参数。本文在此基础上提出了Complete$^{(d)}$参数化方法,统一了宽度、深度、批量大小和训练时长的缩放。此外,研究还探讨了每个模块的超参数优化与转移,提出了应对高维超参数空间的实用指南。实验结果表明,采用适当的参数化方法,即使在模块级超参数环境中,超参数转移也能有效进行,并在大型语言模型中显著提升训练速度。
🔬 方法详解
问题定义:本文旨在解决超参数调优过程中高维空间带来的复杂性和效率问题。现有方法在不同模型规模间转移超参数时,往往难以实现最佳性能。
核心思路:提出Complete$^{(d)}$参数化方法,通过统一处理宽度、深度、批量大小和训练时长的缩放,简化超参数优化过程,并实现模块级超参数的有效转移。
技术框架:整体架构包括超参数的定义、模块化设计和转移策略。首先在小模型上优化全局超参数,然后将其转移至大模型,最后针对每个模块进行细致的超参数调优。
关键创新:最重要的创新在于实现了模块级超参数的转移,突破了传统方法的局限,使得在高维超参数空间中仍能有效优化。
关键设计:关键参数设置包括学习率、AdamW参数、权重衰减、初始化尺度和残差块乘数等,确保在不同模型规模下的有效性和稳定性。实验中采用的损失函数和网络结构设计也经过精心调整,以适应新的参数化方法。
🖼️ 关键图片
📊 实验亮点
实验结果表明,采用转移的模块级超参数后,大型语言模型的训练速度提高了显著的百分比,具体提升幅度未知,且在多个基线模型上均表现出优越的性能。
🎯 应用场景
该研究的潜在应用领域包括自然语言处理、计算机视觉等大规模模型的训练与优化。通过有效的超参数转移,研究能够显著提升模型训练的效率和性能,具有广泛的实际价值和深远的影响。
📄 摘要(原文)
Hyperparameter tuning can dramatically impact training stability and final performance of large-scale models. Recent works on neural network parameterisations, such as $μ$P, have enabled transfer of optimal global hyperparameters across model sizes. These works propose an empirical practice of search for optimal global base hyperparameters at a small model size, and transfer to a large size. We extend these works in two key ways. To handle scaling along most important scaling axes, we propose the Complete$^{(d)}$ Parameterisation that unifies scaling in width and depth -- using an adaptation of CompleteP -- as well as in batch-size and training duration. Secondly, with our parameterisation, we investigate per-module hyperparameter optimisation and transfer. We characterise the empirical challenges of navigating the high-dimensional hyperparameter landscape, and propose practical guidelines for tackling this optimisation problem. We demonstrate that, with the right parameterisation, hyperparameter transfer holds even in the per-module hyperparameter regime. Our study covers an extensive range of optimisation hyperparameters of modern models: learning rates, AdamW parameters, weight decay, initialisation scales, and residual block multipliers. Our experiments demonstrate significant training speed improvements in Large Language Models with the transferred per-module hyperparameters.