MARS-M: When Variance Reduction Meets Matrices

作者: Yifeng Liu, Angela Yuan, Quanquan Gu

分类: cs.LG, math.OC, stat.ML

发布日期: 2025-10-20 (更新: 2026-01-29)

🔗 代码/项目: GITHUB

💡 一句话要点

提出MARS-M优化器以提升大规模神经网络训练效率

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 优化器 方差减少 矩阵运算 大规模神经网络 训练效率 自然语言处理 计算机视觉

📋 核心要点

现有的优化器在训练大规模神经网络时效率不足，尤其是在处理方差时表现不佳。
MARS-M优化器结合了方差减少技术与矩阵基础的Muons，旨在提高收敛速度和训练效率。
实验结果显示，MARS-M在多个下游基准测试中均表现出更低的损失和更优的性能，超越了传统优化器。

📝 摘要（中文）

矩阵基础的预条件优化器，如Muon，已被证明在训练大规模神经网络（包括大型语言模型）时比标量基础的优化器更高效。近期的基准研究显示，采用方差减少技术的优化器（如MARS）能显著加速训练。本文提出MARS-M，一种将MARS风格的方差减少与Muon相结合的新优化器。在标准正则条件下，我们证明MARS-M以$ ilde{ ext{O}}(T^{-1/3})$的速率收敛，优于Muon的$ ilde{ ext{O}}(T^{-1/4})$速率。实验证明，MARS-M在语言建模和计算机视觉任务中均表现出更低的损失和更好的性能。

🔬 方法详解

问题定义：本文旨在解决现有优化器在大规模神经网络训练中效率不足的问题，尤其是在方差处理方面的挑战。现有的Muons优化器在收敛速率上存在局限性。

核心思路：MARS-M优化器通过将MARS风格的方差减少技术与Muons相结合，设计出一种新的优化策略，以提高收敛速度和训练效率。这样的设计旨在充分利用矩阵优化的优势，同时减少训练过程中的方差。

技术框架：MARS-M的整体架构包括方差减少模块和矩阵优化模块。方差减少模块负责降低训练过程中的方差，而矩阵优化模块则利用矩阵运算加速优化过程。整体流程包括初始化参数、迭代更新和收敛检测等阶段。

关键创新：MARS-M的主要创新在于其收敛速率的提升，从$ ilde{ ext{O}}(T^{-1/4})$提高到$ ilde{ ext{O}}(T^{-1/3})$，这在理论上和实践中均显著优于现有的Muons优化器。

关键设计：MARS-M的设计中，关键参数设置包括学习率的动态调整和方差估计的优化。此外，损失函数的选择和网络结构的设计也经过精心调整，以确保优化过程的高效性和稳定性。

🖼️ 关键图片

📊 实验亮点

实验结果表明，MARS-M在语言建模和计算机视觉任务中均实现了显著的性能提升。具体而言，与传统优化器相比，MARS-M在多个基准测试中降低了损失，并提高了模型的准确性，展示了其在实际应用中的有效性。

🎯 应用场景

MARS-M优化器在大规模神经网络的训练中具有广泛的应用潜力，尤其是在自然语言处理和计算机视觉等领域。其高效的收敛特性能够显著缩短训练时间，提高模型的实际应用价值。未来，MARS-M有望在更多复杂任务中展现出优越的性能，推动相关技术的发展。

📄 摘要（原文）

Matrix-based preconditioned optimizers, such as Muon, have recently been shown to be more efficient than scalar-based optimizers for training large-scale neural networks, including large language models (LLMs). Recent benchmark studies of LLM pretraining optimizers have demonstrated that variance-reduction techniques such as MARS can substantially speed up training compared with standard optimizers that do not employ variance reduction. In this paper, we introduce MARS-M, a new optimizer that integrates MARS-style variance reduction with Muon. Under standard regularity conditions, we prove that MARS-M converges to a first-order stationary point at a rate of $\tilde{\mathcal{O}}(T^{-1/3})$, improving upon the $\tilde{\mathcal{O}}(T^{-1/4})$ rate attained by Muon. Empirical results on language modeling and computer vision tasks demonstrate that MARS-M consistently yields lower losses and improved performance across various downstream benchmarks. The implementation of MARS-M is available at https://github.com/AGI-Arena/MARS/tree/main/MARS_M.

MARS-M: When Variance Reduction Meets Matrices

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理