Rethinking Language Model Scaling under Transferable Hypersphere Optimization
作者: Liliang Ren, Yang Liu, Yelong Shen, Weizhu Chen
分类: cs.LG
发布日期: 2026-04-07
💡 一句话要点
提出HyperP框架以优化大语言模型的可扩展性问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 超参数转移 Frobenius超球 Muon优化器 训练稳定性 计算效率 专家混合
📋 核心要点
- 现有的超参数转移规律主要针对一阶优化器,无法有效解决大规模训练中的不稳定性问题。
- 提出HyperP框架,通过Frobenius超球约束实现跨模型参数的最佳学习率转移,提升训练稳定性。
- 在6×10^21 FLOPs的计算预算下,HyperP框架实现了1.58倍的计算效率提升,相较于强基线Muon表现出色。
📝 摘要(中文)
大语言模型的扩展规律在很大程度上依赖于优化器和参数化方式。现有的超参数转移规律主要针对一阶优化器,未能有效防止大规模训练中的不稳定性。本文提出HyperP(超球参数化),这是第一个在Frobenius超球约束下,利用Muon优化器跨模型宽度、深度、训练样本和专家混合粒度转移最佳学习率的框架。研究表明,超球优化能够显著提高计算效率,并保持训练过程中的稳定性。
🔬 方法详解
问题定义:本文旨在解决大语言模型在扩展过程中因优化器和参数化方式导致的不稳定性问题。现有方法未能有效应对大规模训练中的挑战,尤其是在超参数转移方面存在局限性。
核心思路:论文提出HyperP框架,利用Frobenius超球约束,通过Muon优化器实现跨模型宽度、深度和训练样本的最佳学习率转移,从而提高训练的稳定性和效率。
技术框架:HyperP框架包括多个模块,首先是超球约束的应用,其次是Muon优化器的集成,最后是针对不同模型粒度的学习率转移机制。整体流程确保了在不同计算预算下的学习率一致性。
关键创新:HyperP的最大创新在于首次在Frobenius超球约束下实现了最佳学习率的转移,克服了传统方法的局限性,确保了训练过程的稳定性和高效性。
关键设计:在参数设置上,HyperP采用了固定的基学习率,并通过实验验证了其在不同规模下的有效性。此外,提出的SqrtGate机制在MoE粒度上保持了输出RMS的稳定性,进一步增强了模型的负载均衡能力。
🖼️ 关键图片
📊 实验亮点
实验结果显示,HyperP框架在6×10^21 FLOPs的计算预算下,相较于强基线Muon实现了1.58倍的计算效率提升。此外,所有监测的不稳定性指标在训练过程中保持有界且非递增,证明了其优越的稳定性。
🎯 应用场景
该研究的潜在应用领域包括自然语言处理、对话系统和机器翻译等。通过优化大语言模型的训练过程,HyperP框架能够提高模型的计算效率和稳定性,具有重要的实际价值和广泛的应用前景。
📄 摘要(原文)
Scaling laws for large language models depend critically on the optimizer and parameterization. Existing hyperparameter transfer laws are mainly developed for first-order optimizers, and they do not structurally prevent training instability at scale. Recent hypersphere optimization methods constrain weight matrices to a fixed-norm hypersphere, offering a promising alternative for more stable scaling. We introduce HyperP (Hypersphere Parameterization), the first framework for transferring optimal learning rates across model width, depth, training tokens, and Mixture-of-Experts (MoE) granularity under the Frobenius-sphere constraint with the Muon optimizer. We prove that weight decay is a first-order no-op on the Frobenius sphere, show that Depth-$\mu$P remains necessary, and find that the optimal learning rate follows the same data-scaling power law with the "magic exponent" 0.32 previously observed for AdamW. A single base learning rate tuned at the smallest scale transfers across all compute budgets under HyperP, yielding $1.58\times$ compute efficiency over a strong Muon baseline at $6\times10^{21}$ FLOPs. Moreover, HyperP delivers transferable stability: all monitored instability indicators, including $Z$-values, output RMS, and activation outliers, remain bounded and non-increasing under training FLOPs scaling. We also propose SqrtGate, an MoE gating mechanism derived from the hypersphere constraint that preserves output RMS across MoE granularities for improved granularity scaling, and show that hypersphere optimization enables substantially larger auxiliary load-balancing weights, yielding both strong performance and good expert balance. We release our training codebase atthis https URL.