Rethinking Language Model Scaling under Transferable Hypersphere Optimization
作者: Liliang Ren, Yang Liu, Yelong Shen, Weizhu Chen
分类: cs.LG
发布日期: 2026-03-30
🔗 代码/项目: GITHUB
💡 一句话要点
提出HyperP框架,通过可迁移的超球面优化提升大语言模型扩展性与训练稳定性。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 超球面优化 学习率迁移 混合专家模型 训练稳定性 Muon优化器 Frobenius球 SqrtGate
📋 核心要点
- 现有超参数迁移方法主要针对一阶优化器,无法有效防止大模型训练时的不稳定性。
- HyperP框架通过在Frobenius球约束下进行超球面优化,实现跨多种模型维度和MoE粒度的学习率迁移。
- 实验表明,HyperP在计算效率和训练稳定性方面均优于现有方法,并提出了新的MoE门控机制。
📝 摘要(中文)
大语言模型的扩展规律严重依赖于优化器和参数化方法。现有的超参数迁移规律主要针对一阶优化器,并且在结构上无法防止大规模训练时的不稳定性。最近的超球面优化方法将权重矩阵约束到固定范数的超球面,为更稳定的扩展提供了一种有前景的替代方案。我们提出了HyperP(超球面参数化),这是第一个在Frobenius球约束下,利用Muon优化器,跨模型宽度、深度、训练tokens和混合专家(MoE)粒度迁移最优学习率的框架。我们证明了权重衰减在Frobenius球上是一阶无效操作,表明Depth-$μ$P仍然是必要的,并发现最优学习率遵循与AdamW先前观察到的“魔法指数”0.32相同的数据缩放幂律。在最小规模上调整的单个基本学习率可以在HyperP下跨所有计算预算迁移,在$6 imes10^{21}$ FLOPs下,相比强大的Muon基线,计算效率提高了$1.58 imes$。此外,HyperP提供了可迁移的稳定性:所有监控的不稳定性指标,包括$Z$-值、输出RMS和激活异常值,在训练FLOPs扩展下保持有界且非递增。我们还提出了一种从超球面约束导出的MoE门控机制SqrtGate,它在MoE粒度上保持输出RMS,从而改进了粒度扩展,并表明超球面优化能够实现更大的辅助负载平衡权重,从而产生强大的性能和良好的专家平衡。我们在https://github.com/microsoft/ArchScale上发布了我们的训练代码库。
🔬 方法详解
问题定义:现有大语言模型的扩展规律依赖于优化器和参数化,传统超参数迁移方法无法保证大规模训练的稳定性。尤其是在混合专家模型(MoE)中,如何平衡专家负载并保持训练稳定是一个挑战。
核心思路:论文的核心思路是将权重矩阵约束到固定范数的超球面,利用超球面优化方法来稳定训练过程。通过这种约束,可以更好地迁移学习率,并设计新的MoE门控机制,从而提高训练效率和稳定性。
技术框架:HyperP框架主要包含以下几个关键部分:1) Frobenius球约束:将权重矩阵约束到固定范数的超球面。2) Muon优化器:利用Muon优化器进行训练。3) 学习率迁移策略:设计跨模型宽度、深度、训练tokens和MoE粒度的学习率迁移策略。4) SqrtGate门控机制:提出一种新的MoE门控机制,以保持输出RMS并平衡专家负载。
关键创新:论文的关键创新在于:1) 提出了HyperP框架,实现了在超球面约束下的学习率迁移。2) 证明了权重衰减在Frobenius球上的一阶无效性。3) 提出了SqrtGate门控机制,解决了MoE模型中的负载平衡问题。4) 验证了最优学习率与数据缩放幂律的关系。
关键设计:1) Frobenius球约束的具体实现方式。2) Muon优化器的参数设置。3) 学习率迁移策略的数学公式和推导。4) SqrtGate门控机制的数学表达式和实现细节。5) 辅助负载平衡权重的设置方法。
🖼️ 关键图片
📊 实验亮点
实验结果表明,HyperP框架在$6 imes10^{21}$ FLOPs下,相比强大的Muon基线,计算效率提高了$1.58 imes$。此外,HyperP能够保持训练过程的稳定性,所有监控的不稳定性指标均保持有界且非递增。SqrtGate门控机制能够有效平衡MoE模型的专家负载,提高模型性能。
🎯 应用场景
该研究成果可应用于大规模语言模型的训练和部署,尤其是在计算资源有限的情况下,可以提高训练效率和模型性能。此外,该方法对于MoE模型的训练具有重要意义,可以有效平衡专家负载,提高模型的可扩展性。该研究对于推动大模型在各个领域的应用具有重要价值。
📄 摘要(原文)
Scaling laws for large language models depend critically on the optimizer and parameterization. Existing hyperparameter transfer laws are mainly developed for first-order optimizers, and they do not structurally prevent training instability at scale. Recent hypersphere optimization methods constrain weight matrices to a fixed-norm hypersphere, offering a promising alternative for more stable scaling. We introduce HyperP (Hypersphere Parameterization), the first framework for transferring optimal learning rates across model width, depth, training tokens, and Mixture-of-Experts (MoE) granularity under the Frobenius-sphere constraint with the Muon optimizer. We prove that weight decay is a first-order no-op on the Frobenius sphere, show that Depth-$μ$P remains necessary, and find that the optimal learning rate follows the same data-scaling power law with the "magic exponent" 0.32 previously observed for AdamW. A single base learning rate tuned at the smallest scale transfers across all compute budgets under HyperP, yielding $1.58\times$ compute efficiency over a strong Muon baseline at $6\times10^{21}$ FLOPs. Moreover, HyperP delivers transferable stability: all monitored instability indicators, including $Z$-values, output RMS, and activation outliers, remain bounded and non-increasing under training FLOPs scaling. We also propose SqrtGate, an MoE gating mechanism derived from the hypersphere constraint that preserves output RMS across MoE granularities for improved granularity scaling, and show that hypersphere optimization enables substantially larger auxiliary load-balancing weights, yielding both strong performance and good expert balance. We release our training codebase at https://github.com/microsoft/ArchScale.