Predictable Scaling Laws of Optimal Hyperparameters for LLM Continued Pre-training
作者: Yongwei Zhou, Juncheng Diao, Junlin Shang, Peiguang Li, Rongxiang Weng
分类: cs.CL
发布日期: 2026-06-04
💡 一句话要点
提出可预测的超参数缩放法则以优化大语言模型继续预训练
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 超参数优化 继续预训练 计算预算 缩放法则 机器学习 模型泛化
📋 核心要点
- 现有的超参数优化方法多依赖启发式或网格搜索,导致训练过程不稳定且成本高昂。
- 本文提出了一种新框架,通过经验法则发现和状态感知超参数预测来优化超参数配置。
- 实验结果显示,该方法将超参数搜索开销降低了90%,并在性能上与基线模型相当或更优。
📝 摘要(中文)
继续预训练大语言模型(LLMs)的有效性依赖于超参数配置,如学习率和批量大小。然而,现有方法通常依赖启发式或网格搜索,导致训练不稳定和成本过高。本文首次实证发现,最佳超参数在继续预训练过程中遵循稳定且可预测的缩放法则。基于此,我们提出了一种新框架,建立计算预算与最佳超参数之间的定量关系。该方法分为两个阶段:第一阶段为经验法则发现,通过训练小规模代理模型,利用标准损失-计算缩放法则推导出计算预算与最佳超参数的映射函数;第二阶段为状态感知超参数预测,通过评估初始检查点的验证损失,使用逆缩放法则估计其等效预训练计算。实验结果表明,我们的方法将超参数搜索开销减少了90%,同时在性能上与基线模型相当或更优。
🔬 方法详解
问题定义:本文旨在解决大语言模型继续预训练中超参数配置不当导致的训练不稳定和高成本问题。现有方法多依赖经验法则,缺乏系统性和可预测性。
核心思路:我们通过实证研究发现,最佳超参数遵循稳定的缩放法则,进而提出一种框架来量化计算预算与超参数之间的关系,以实现高效的超参数优化。
技术框架:该框架分为两个主要阶段:第一阶段是经验法则发现,训练小规模代理模型以推导计算预算与最佳超参数的映射;第二阶段是状态感知超参数预测,通过评估初始检查点的验证损失,利用逆缩放法则估算等效预训练计算。
关键创新:最重要的创新在于提出了超参数与计算预算之间的可预测关系,打破了传统方法的经验性和随机性,使得超参数优化更加系统化和高效。
关键设计:在模型训练中,采用标准损失-计算缩放法则,并通过小规模代理模型进行实验,确保推导出的函数具有良好的泛化能力。
🖼️ 关键图片
📊 实验亮点
实验结果表明,提出的方法将超参数搜索的开销降低了高达90%,同时在性能上与基线模型相比表现出相当或更优的效果。这一显著的提升展示了该框架在实际应用中的有效性和潜力。
🎯 应用场景
该研究的潜在应用领域包括大语言模型的继续预训练、超参数优化以及其他需要高效计算资源管理的机器学习任务。通过提供一种系统化的超参数优化方法,能够显著降低训练成本,提高模型性能,具有重要的实际价值和广泛的应用前景。
📄 摘要(原文)
The efficacy of continued pre-training for Large Language Models (LLMs) hinges upon hyperparameter configurations, such as learning rate and batch size. However, current practices often rely on heuristics or grid searches, leading to training instability and excessive costs. In this work, we first empirically discover that optimal hyperparameters follow stable and predictable scaling laws throughout the continued pre-training process. Leveraging these insights, we propose a novel framework to establish quantitative relationships between compute budget and optimal hyperparameters for a given checkpoint. Our approach has two stages: (1) \textit{Empirical Law Discovery}, where we train small-scale proxy models to derive functions mapping compute budget to optimal hyperparameters via standard loss-compute scaling laws; and (2) \textit{State-Aware Hyperparameter Prediction}, where we evaluate an initial checkpoint's validation loss and use the inverse scaling law to estimate its \textit{equivalent pre-training compute} -- the compute needed to achieve the same loss from scratch. Combining this with the planned compute budget, we predict optimal hyperparameters for the target run. Empirical results demonstrate that our method reduces the hyperparameter search overhead by up to 90\% while achieving comparable or superior performance relative to baselines. This model-agnostic framework generalizes across architectures, providing a principled and efficient methodology for diverse continued pre-training scenarios starting from any given point.