Muon is Provably Faster with Momentum Variance Reduction

📄 arXiv: 2512.16598v1 📥 PDF

作者: Xun Qian, Hussein Rammal, Dmitry Kovalev, Peter Richtárik

分类: math.OC, cs.LG

发布日期: 2025-12-18

备注: 31 pages, 4 figures


💡 一句话要点

提出动量方差减少的Muon优化器以提升深度学习训练效率

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 深度学习 优化器 动量方差减少 Gluon框架 收敛速率 非欧几里得方法 大型语言模型

📋 核心要点

  1. 现有的深度学习优化器在训练大型语言模型时存在收敛速度慢的问题,尤其是Adam类方法的表现不够理想。
  2. 本文提出通过动量方差减少(MVR)来改进Muon和Scion优化器,并将其整合进Gluon框架,以提升收敛速率。
  3. 实验结果表明,所提出的算法在迭代复杂度上显著优于传统方法,收敛速率从${ ext{O}}( rac{1}{K^{1/4}})$提升至${ ext{O}}( rac{1}{K^{1/3}})$。

📝 摘要(中文)

近期的实证研究表明,基于线性最小化oracle(LMO)的深度学习优化器,如Muon和Scion,在训练大型语言模型时优于Adam类方法。本文展示了通过将传统动量替换为动量方差减少(MVR),可以在理论上改进这些优化器的性能。我们将MVR整合进最近提出的Gluon框架,该框架能够捕捉Muon、Scion及其他特定的非欧几里得LMO方法,并在更一般的光滑性假设下工作。我们在非凸情况下以三种不同方式将MVR融入Gluon,所有方法均将收敛速率从${ ext{O}}( rac{1}{K^{1/4}})$提升至${ ext{O}}( rac{1}{K^{1/3}})$,并在星凸情况下提供了改进的速率。最后,我们进行了多次数值实验,验证了所提算法在迭代复杂度方面的优越性能。

🔬 方法详解

问题定义:本文旨在解决现有深度学习优化器在训练大型语言模型时收敛速度慢的问题,尤其是Adam类方法的不足之处。

核心思路:通过引入动量方差减少(MVR)技术,替代传统动量,以提高优化器的收敛效率,并将其整合到Gluon框架中,以便于更广泛的应用。

技术框架:整体架构包括Gluon框架的设计,能够处理Muon、Scion等多种非欧几里得LMO方法,并在此基础上实现MVR的三种不同整合方式。

关键创新:最重要的创新在于将MVR与Gluon框架结合,提升了收敛速率,并在理论上证明了这一改进的有效性,区别于传统的优化器设计。

关键设计:在设计中,采用了适应性参数设置和损失函数,确保在不同的光滑性假设下,优化器能够有效地捕捉神经网络的层次结构。具体的参数设置和网络结构细节在实验部分进行了详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,所提出的算法在迭代复杂度上表现优越,收敛速率从${ ext{O}}( rac{1}{K^{1/4}})$提升至${ ext{O}}( rac{1}{K^{1/3}})$,在星凸情况下也取得了更好的收敛速率,验证了MVR的有效性。

🎯 应用场景

该研究的潜在应用领域包括自然语言处理、计算机视觉和其他需要高效训练深度学习模型的场景。通过提升优化器的收敛速度,可以显著缩短模型训练时间,提高模型性能,具有重要的实际价值和广泛的应用前景。

📄 摘要(原文)

Recent empirical research has demonstrated that deep learning optimizers based on the linear minimization oracle (LMO) over specifically chosen Non-Euclidean norm balls, such as Muon and Scion, outperform Adam-type methods in the training of large language models. In this work, we show that such optimizers can be provably improved by replacing their vanilla momentum by momentum variance reduction (MVR). Instead of proposing and analyzing MVR variants of Muon and Scion separately, we incorporate MVR into the recently proposed Gluon framework, which captures Muon, Scion and other specific Non-Euclidean LMO-based methods as special cases, and at the same time works with a more general smoothness assumption which better captures the layer-wise structure of neural networks. In the non-convex case, we incorporate MVR into Gluon in three different ways. All of them improve the convergence rate from ${\cal O} (\frac{1}{K^{1/4}})$ to ${\cal O} (\frac{1}{K^{1/3}})$. Additionally, we provide improved rates in the star-convex case. Finally, we conduct several numerical experiments that verify the superior performance of our proposed algorithms in terms of iteration complexity.