MONA: Muon Optimizer with Nesterov Acceleration for Scalable Language Model Training

作者: Jiacheng Li, Jianchao Tan, Hongtao Xu, Jiaqi Zhang, Yifan Lu, Yerui Sun, Yuchen Xie, Xunliang Cai

分类: cs.LG, cs.CL

发布日期: 2026-05-26

💡 一句话要点

提出MONA：一种结合Nesterov加速的Muon优化器，用于可扩展的语言模型训练。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: Muon优化器 Nesterov加速 大型语言模型 混合专家模型 优化算法 收敛性分析 梯度优化

📋 核心要点

现有优化器如Muon在大型语言模型训练中易陷入尖锐局部最小值，影响模型性能。
MONA通过引入Nesterov加速项，增强Muon优化器的曲率感知能力，加速逃离局部最小值。
实验表明，MONA在不同规模的混合专家模型预训练和微调中，均优于Muon和AdamW。

📝 摘要（中文）

Muon优化器最近为大型语言模型训练提供了一种有前景的AdamW替代方案，它利用矩阵正交化来产生几何感知的更新。然而，与所有一阶方法一样，Muon可能会陷入尖锐的局部最小值。本文提出了MONA，一种将Muon的正交化框架与曲率感知加速相结合的优化器。MONA直接将一个加速项添加到Muon的梯度处理流程中。该项由梯度差的指数移动平均计算得出。我们为MONA提供了详细的收敛性分析，表明加速项能够在保持Muon的谱范数正则化的同时，逃离尖锐的最小值。实验结果表明，在1B到68B参数的三种规模的混合专家模型预训练中，MONA相比Muon和AdamW都实现了更好的收敛性和下游任务性能，其中最大的模型在1万亿个token上进行了训练。此外，我们在MOE-68B-A3B模型上进行了监督微调，并在通用能力、数学推理和代码生成基准上对其进行了评估，MONA取得了SOTA性能。

🔬 方法详解

问题定义：大型语言模型训练面临优化挑战，传统优化器如AdamW和Muon可能陷入尖锐的局部最小值，导致训练停滞和模型性能下降。Muon虽然利用矩阵正交化产生几何感知的更新，但作为一阶方法，仍无法有效逃离这些局部最小值。

核心思路：MONA的核心思路是将Nesterov加速的思想融入Muon优化器中，通过引入一个基于梯度差的指数移动平均的加速项，使优化器能够感知曲率信息，从而更有效地逃离尖锐的局部最小值。这种方法旨在结合Muon的几何感知能力和Nesterov加速的动量效应。

技术框架：MONA的整体框架是在Muon的梯度处理流程中添加一个加速项。具体来说，首先计算当前梯度和前一个梯度的差值，然后对这些差值进行指数移动平均，得到加速项。最后，将加速项添加到Muon的更新步骤中。这个过程可以看作是在Muon的梯度更新中引入了一种动量，使其能够更快地朝着更优的方向前进。

关键创新：MONA的关键创新在于将Nesterov加速的思想与Muon的正交化框架相结合。与直接在梯度上添加动量不同，MONA的加速项是基于梯度差的指数移动平均计算得到的，这使得加速项能够更好地反映曲率信息，从而更有效地逃离尖锐的局部最小值。此外，论文还提供了详细的收敛性分析，证明了加速项能够在保持Muon的谱范数正则化的同时，提高收敛速度。

关键设计：MONA的关键设计包括加速项的计算方式和指数移动平均的参数设置。加速项的计算基于梯度差的指数移动平均，这需要选择合适的指数衰减率。论文中可能给出了关于如何选择这个参数的建议。此外，MONA的损失函数与Muon相同，主要关注如何通过优化器改进训练过程。

🖼️ 关键图片

📊 实验亮点

MONA在三种规模（1B到68B参数）的混合专家模型预训练中，均优于Muon和AdamW，展现出更好的收敛性和下游任务性能。在最大的68B参数模型上，MONA在1万亿token上进行了训练，并在通用能力、数学推理和代码生成基准上取得了SOTA性能，证明了其在大规模语言模型训练中的有效性。

🎯 应用场景

MONA优化器可广泛应用于大型语言模型的预训练和微调，尤其是在需要处理海量数据和复杂模型结构的场景下。其能够提升模型训练的效率和最终性能，从而推动自然语言处理、机器翻译、文本生成等领域的进步。该研究对于开发更高效、更稳定的深度学习优化算法具有重要意义。

📄 摘要（原文）

The Muon optimizer has recently offered a promising alternative to AdamW for large language model training, leveraging matrix orthogonalization to produce geometry-aware updates. However, like all first-order methods, Muon can become trapped in sharp local minima. In this work, we present MONA, an optimizer that bridges Muon's orthogonalization framework with curvature-aware acceleration. MONA adds an acceleration term directly into Muon's gradient processing pipeline. This term is calculated from the exponential moving average of gradient differences. We provide a detailed convergence analysis for MONA, showing that the acceleration term enables escape from sharp minima while preserving Muon's spectral-norm regularization. Empirically, MONA achieves better convergence and downstream task performance compared to both Muon and AdamW across three scales of Mixture-of-Experts pretraining, spanning from 1B to 68B parameters, with the largest model trained on 1 trillion tokens. Furthermore, we conduct supervised fine-tuning on the MOE-68B-A3B model and evaluate it on general capability, mathematical reasoning, and code generation benchmarks, where MONA achieves SOTA performance.

MONA: Muon Optimizer with Nesterov Acceleration for Scalable Language Model Training

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理