MONA: Muon Optimizer with Nesterov Acceleration for Scalable Language Model Training

📄 arXiv: 2605.26842v1 📥 PDF

作者: Jiacheng Li, Jianchao Tan, Hongtao Xu, Jiaqi Zhang, Yifan Lu, Yerui Sun, Yuchen Xie, Xunliang Cai

分类: cs.LG, cs.CL

发布日期: 2026-05-26


💡 一句话要点

提出MONA:一种结合Nesterov加速的Muon优化器,用于可扩展的语言模型训练。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: Muon优化器 Nesterov加速 大型语言模型 混合专家模型 优化算法 收敛性分析 梯度优化

📋 核心要点

  1. 现有优化器如Muon在大型语言模型训练中易陷入尖锐局部最小值,影响模型性能。
  2. MONA通过引入Nesterov加速项,增强Muon优化器的曲率感知能力,加速逃离局部最小值。
  3. 实验表明,MONA在不同规模的混合专家模型预训练和微调中,均优于Muon和AdamW。

📝 摘要(中文)

Muon优化器最近为大型语言模型训练提供了一种有前景的AdamW替代方案,它利用矩阵正交化来产生几何感知的更新。然而,与所有一阶方法一样,Muon可能会陷入尖锐的局部最小值。本文提出了MONA,一种将Muon的正交化框架与曲率感知加速相结合的优化器。MONA直接将一个加速项添加到Muon的梯度处理流程中。该项由梯度差的指数移动平均计算得出。我们为MONA提供了详细的收敛性分析,表明加速项能够在保持Muon的谱范数正则化的同时,逃离尖锐的最小值。实验结果表明,在1B到68B参数的三种规模的混合专家模型预训练中,MONA相比Muon和AdamW都实现了更好的收敛性和下游任务性能,其中最大的模型在1万亿个token上进行了训练。此外,我们在MOE-68B-A3B模型上进行了监督微调,并在通用能力、数学推理和代码生成基准上对其进行了评估,MONA取得了SOTA性能。

🔬 方法详解

问题定义:大型语言模型训练面临优化挑战,传统优化器如AdamW和Muon可能陷入尖锐的局部最小值,导致训练停滞和模型性能下降。Muon虽然利用矩阵正交化产生几何感知的更新,但作为一阶方法,仍无法有效逃离这些局部最小值。

核心思路:MONA的核心思路是将Nesterov加速的思想融入Muon优化器中,通过引入一个基于梯度差的指数移动平均的加速项,使优化器能够感知曲率信息,从而更有效地逃离尖锐的局部最小值。这种方法旨在结合Muon的几何感知能力和Nesterov加速的动量效应。

技术框架:MONA的整体框架是在Muon的梯度处理流程中添加一个加速项。具体来说,首先计算当前梯度和前一个梯度的差值,然后对这些差值进行指数移动平均,得到加速项。最后,将加速项添加到Muon的更新步骤中。这个过程可以看作是在Muon的梯度更新中引入了一种动量,使其能够更快地朝着更优的方向前进。

关键创新:MONA的关键创新在于将Nesterov加速的思想与Muon的正交化框架相结合。与直接在梯度上添加动量不同,MONA的加速项是基于梯度差的指数移动平均计算得到的,这使得加速项能够更好地反映曲率信息,从而更有效地逃离尖锐的局部最小值。此外,论文还提供了详细的收敛性分析,证明了加速项能够在保持Muon的谱范数正则化的同时,提高收敛速度。

关键设计:MONA的关键设计包括加速项的计算方式和指数移动平均的参数设置。加速项的计算基于梯度差的指数移动平均,这需要选择合适的指数衰减率。论文中可能给出了关于如何选择这个参数的建议。此外,MONA的损失函数与Muon相同,主要关注如何通过优化器改进训练过程。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MONA在三种规模(1B到68B参数)的混合专家模型预训练中,均优于Muon和AdamW,展现出更好的收敛性和下游任务性能。在最大的68B参数模型上,MONA在1万亿token上进行了训练,并在通用能力、数学推理和代码生成基准上取得了SOTA性能,证明了其在大规模语言模型训练中的有效性。

🎯 应用场景

MONA优化器可广泛应用于大型语言模型的预训练和微调,尤其是在需要处理海量数据和复杂模型结构的场景下。其能够提升模型训练的效率和最终性能,从而推动自然语言处理、机器翻译、文本生成等领域的进步。该研究对于开发更高效、更稳定的深度学习优化算法具有重要意义。

📄 摘要(原文)

The Muon optimizer has recently offered a promising alternative to AdamW for large language model training, leveraging matrix orthogonalization to produce geometry-aware updates. However, like all first-order methods, Muon can become trapped in sharp local minima. In this work, we present MONA, an optimizer that bridges Muon's orthogonalization framework with curvature-aware acceleration. MONA adds an acceleration term directly into Muon's gradient processing pipeline. This term is calculated from the exponential moving average of gradient differences. We provide a detailed convergence analysis for MONA, showing that the acceleration term enables escape from sharp minima while preserving Muon's spectral-norm regularization. Empirically, MONA achieves better convergence and downstream task performance compared to both Muon and AdamW across three scales of Mixture-of-Experts pretraining, spanning from 1B to 68B parameters, with the largest model trained on 1 trillion tokens. Furthermore, we conduct supervised fine-tuning on the MOE-68B-A3B model and evaluate it on general capability, mathematical reasoning, and code generation benchmarks, where MONA achieves SOTA performance.