Mano: Restriking Manifold Optimization for LLM Training
作者: Yufei Gu, Zeke Xie
分类: cs.LG, cs.AI
发布日期: 2026-01-30
💡 一句话要点
提出Mano优化器,通过重构流形优化方法提升LLM训练效率。
🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 优化器 流形优化 动量投影 旋转斜流形
📋 核心要点
- 现有LLM优化器(如AdamW和Muon)在曲率估计和结构信息利用方面存在不足,限制了训练效率。
- Mano优化器通过将动量投影到模型参数的切空间,并约束在旋转斜流形上,实现了更有效的优化。
- 实验表明,Mano在LLaMA和Qwen3模型上显著优于AdamW和Muon,同时降低了内存消耗和计算复杂度。
📝 摘要(中文)
大型语言模型(LLM)的训练面临着巨大的硬件和计算成本。现有优化器如AdamW依赖于对角曲率估计,忽略了结构属性;Muon虽然应用了全局谱归一化,但损失了曲率信息。本研究重构了流形优化方法用于LLM训练,旨在解决上述优化器的局限性。通过创新性地将动量投影到模型参数的切空间,并将其约束在旋转斜流形上,我们提出了一种新型、强大且高效的优化器Mano,首次弥合了流形优化与现代优化器之间的性能差距。在LLaMA和Qwen3模型上的大量实验表明,Mano在内存消耗和计算复杂度均较低的情况下,始终显著优于AdamW和Muon,表明在空间和时间效率方面扩展了Pareto前沿。
🔬 方法详解
问题定义:现有LLM训练优化器,如AdamW和Muon,存在局限性。AdamW依赖于对角曲率估计,忽略了模型参数的结构信息。Muon虽然使用了全局谱归一化,但牺牲了曲率信息。这些局限性导致训练效率低下,需要一种既能利用模型结构信息,又能有效估计曲率的优化方法。
核心思路:Mano的核心思路是重构流形优化方法,将其应用于LLM训练。通过将动量投影到模型参数的切空间,并将其约束在旋转斜流形上,Mano能够更好地利用模型参数的几何结构,从而实现更有效的优化。这种设计旨在弥合传统流形优化与现代优化器之间的性能差距。
技术框架:Mano优化器的整体框架包括以下几个关键步骤:1) 计算模型参数的梯度;2) 将动量投影到模型参数的切空间;3) 将动量约束在旋转斜流形上;4) 使用约束后的动量更新模型参数。这个过程迭代进行,直到模型收敛。
关键创新:Mano最重要的技术创新在于将动量约束在旋转斜流形上。这种约束能够有效地利用模型参数的几何结构,从而实现更有效的优化。与现有方法相比,Mano能够更好地平衡曲率估计和结构信息利用,从而提高训练效率。
关键设计:Mano的关键设计包括:1) 切空间的定义和投影方法;2) 旋转斜流形的定义和约束方法;3) 动量更新的策略。具体的参数设置和损失函数细节在论文中未详细说明,属于未知信息。
🖼️ 关键图片
📊 实验亮点
实验结果表明,Mano在LLaMA和Qwen3模型上显著优于AdamW和Muon。具体而言,Mano在内存消耗和计算复杂度均较低的情况下,实现了更高的训练效率和模型性能。这些结果表明,Mano在空间和时间效率方面扩展了Pareto前沿,为LLM训练提供了一种更优的选择。
🎯 应用场景
Mano优化器可广泛应用于各种大型语言模型的训练,尤其是在计算资源受限的情况下。它可以降低训练成本,加速模型收敛,并提高模型性能。该研究成果对推动自然语言处理领域的发展具有重要意义,并可能促进更多高效LLM的开发和应用。
📄 摘要(原文)
While large language models (LLMs) have emerged as a significant advancement in artificial intelligence, the hardware and computational costs for training LLMs are also significantly burdensome. Among the state-of-the-art optimizers, AdamW relies on diagonal curvature estimates and ignores structural properties, while Muon applies global spectral normalization at the expense of losing curvature information. In this study, we restriked manifold optimization methods for training LLMs, which may address both optimizers' limitations, while conventional manifold optimization methods have been largely overlooked due to the poor performance in large-scale model optimization. By innovatively projecting the momentum onto the tangent space of model parameters and constraining it on a rotational Oblique manifold, we propose a novel, powerful, and efficient optimizer Mano that is the first to bridge the performance gap between manifold optimization and modern optimizers. Extensive experiments on the LLaMA and Qwen3 models demonstrate that Mano consistently and significantly outperforms AdamW and Muon even with less memory consumption and computational complexity, respectively, suggesting an expanded Pareto frontier in terms of space and time efficiency.