Muon+: Towards Better Muon via One Additional Normalization Step

作者: Ruijie Zhang, Yequan Zhao, Ziyue Liu, Zhengyang Wang, Zheng Zhang

分类: cs.LG

发布日期: 2026-02-25

🔗 代码/项目: GITHUB

💡 一句话要点

Muon+：通过额外的归一化步骤提升Muon优化器性能

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 优化器 大语言模型 预训练 梯度正交化 归一化 深度学习

📋 核心要点

现有Muon优化器在训练大型语言模型时，虽然通过梯度正交化取得了一定效果，但仍有提升空间。
Muon+的核心在于在Muon的正交化步骤后，增加一个额外的归一化步骤，以进一步稳定训练过程。
实验结果表明，Muon+在不同规模和架构的模型上，均能持续提升训练和验证困惑度，尤其是在高T2P比率下。

📝 摘要（中文）

Muon优化器通过梯度（或动量）正交化，在大语言模型的预训练中表现出良好的性能。本文提出了一种简单而有效的Muon增强方法，称为Muon+，它在正交化之后引入了一个额外的归一化步骤。通过对各种模型规模和架构进行广泛的预训练实验，证明了Muon+的有效性。我们的评估包括参数量从130M到774M的GPT风格模型，以及参数量从60M到1B的LLaMA风格模型。我们全面评估了Muon+在计算最优训练机制中的有效性，并将token-to-parameter (T2P) 比率扩展到工业级的约200。实验结果表明，与Muon相比，Muon+在训练和验证困惑度上都提供了持续的提升。代码已开源。

🔬 方法详解

问题定义：Muon优化器旨在通过梯度或动量正交化来改善大型语言模型的训练过程。然而，即使进行了正交化，训练过程仍然可能不稳定，导致收敛速度慢或最终性能不佳。现有的Muon优化器可能无法充分利用计算资源，尤其是在高token-to-parameter (T2P) 比率下，训练效率有待提高。

核心思路：Muon+的核心思路是在Muon优化器的正交化步骤之后，添加一个额外的归一化步骤。这个额外的归一化步骤旨在进一步稳定梯度，防止梯度爆炸或消失，从而改善训练的收敛性和最终性能。通过更有效地利用计算资源，尤其是在高T2P比率下，提高训练效率。

技术框架：Muon+的整体框架与Muon类似，主要包括梯度计算、动量更新、梯度正交化等步骤。关键区别在于，在梯度正交化之后，Muon+增加了一个额外的归一化步骤。这个归一化步骤对正交化后的梯度进行处理，使其具有更稳定的尺度。然后，使用归一化后的梯度更新模型参数。

关键创新：Muon+的最重要的技术创新点在于引入了额外的归一化步骤。与Muon相比，Muon+在正交化后对梯度进行了进一步的约束，从而提高了训练的稳定性。这种额外的归一化步骤可以被视为一种正则化技术，有助于防止过拟合，并提高模型的泛化能力。

关键设计：Muon+的关键设计在于选择合适的归一化方法。论文中可能采用了如Layer Normalization或Weight Normalization等方法。具体的归一化参数（例如，均值和方差的计算方式）以及归一化层的放置位置，都是需要仔细调整的关键技术细节。此外，与其他超参数（如学习率、动量系数等）的配合也至关重要。

🖼️ 关键图片

📊 实验亮点

实验结果表明，Muon+在不同规模的GPT和LLaMA风格模型上，均能持续提升训练和验证困惑度。在高T2P比率（约200）下，Muon+的优势更加明显，表明其在高计算效率场景下的有效性。与Muon相比，Muon+能够更快地收敛，并达到更低的困惑度，从而证明了其优越的性能。

🎯 应用场景

Muon+优化器可广泛应用于各种大型语言模型的预训练任务，尤其是在计算资源有限或需要高T2P比率的场景下。它可以提高模型的训练效率和最终性能，从而降低训练成本，并提升模型的生成质量和泛化能力。该方法在自然语言处理、机器翻译、文本生成等领域具有广泛的应用前景。

📄 摘要（原文）

The Muon optimizer has demonstrated promising performance in pre-training large language models through gradient (or momentum) orthogonalization. In this work, we propose a simple yet effective enhancement to Muon, namely Muon+, which introduces an additional normalization step after orthogonalization. We demonstrate the effectiveness of Muon+ through extensive pre-training experiments across a wide range of model scales and architectures. Our evaluation includes GPT-style models ranging from 130M to 774M parameters and LLaMA-style models ranging from 60M to 1B parameters. We comprehensively evaluate the effectiveness of Muon+ in the compute-optimal training regime and further extend the token-to-parameter (T2P) ratio to an industrial level of $\approx 200$. Experimental results show that Muon+ provides a consistent boost on training and validation perplexity over Muon. We provide our code here: https://github.com/K1seki221/MuonPlus.

Muon+: Towards Better Muon via One Additional Normalization Step

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理