Conda: Column-Normalized Adam for Training Large Language Models Faster

作者: Junjie Wang, Pan Zhou, Yiming Dong, Huan Li, Jia Li, Xun Zhou, Qicheng Lao, Cong Fang, Zhouchen Lin

分类: cs.LG, cs.AI

发布日期: 2025-09-29 (更新: 2025-09-30)

🔗 代码/项目: GITHUB

💡 一句话要点

Conda：面向大规模语言模型，通过列归一化Adam加速训练。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大规模语言模型 优化器 Adam 谱归一化 正交投影 列归一化 预训练 深度学习

📋 核心要点

现有基于Adam的优化器在训练LLM时存在谱条件差和低秩结构问题，影响训练效率。
Conda将梯度投影到正交子空间，并进行列归一化，兼顾了谱条件改善和逐坐标自适应。
实验表明，Conda在LLaMA系列上比AdamW快2-2.5倍，且在不同训练设置下表现鲁棒。

📝 摘要（中文）

大型语言模型（LLMs）展现了令人印象深刻的泛化和涌现能力，但其预训练仍然计算成本高昂且对优化动态敏感。虽然基于Adam的优化器通过逐坐标调整学习率提供了快速收敛，但最近的研究表明，它们的更新经常受到不良谱条件和低秩结构的困扰，从而阻碍了效率。Muon通过全局谱归一化解决了这个问题，但缺乏Adam的逐坐标自适应性。在这项工作中，我们提出了一种新的优化器Column-Normalized Adam（Conda），它弥合了这两种方法的优势。Conda将更新投影到正交子空间，并基于投影梯度应用列向二阶矩归一化，从而实现改进的谱条件并保持坐标自适应性。这种设计缓解了Adam的谱病理，同时保留了其快速收敛行为。在LLaMA和GPT-2系列上的大量实验表明，在预训练中，Conda始终优于AdamW、Muon和其他基线。值得注意的是，在LLaMA系列上，Conda实现了AdamW 2-2.5倍的收敛速度，以训练步骤和训练时间衡量。进一步的消融实验证明了其在不同训练设置下的鲁棒性。这些结果共同突出了Conda作为一种有效且广泛适用于大规模LLM训练的优化器。

🔬 方法详解

问题定义：论文旨在解决大规模语言模型预训练过程中，Adam系列优化器存在的谱条件差和低秩结构问题，这些问题导致训练效率低下，收敛速度慢。现有方法如Muon虽然通过全局谱归一化改善了谱条件，但牺牲了Adam的逐坐标自适应性。

核心思路：Conda的核心思路是将梯度更新投影到一个正交子空间，并在这个子空间上进行列归一化。通过正交投影，可以去除梯度中的冗余信息，改善谱条件；列归一化则保留了Adam的逐坐标自适应性，使得优化器能够针对不同的参数采用不同的学习率。这样既能加速收敛，又能避免陷入局部最优。

技术框架：Conda的整体框架可以概括为以下几个步骤：1. 计算梯度；2. 将梯度投影到正交子空间；3. 在投影后的梯度上计算列向二阶矩；4. 使用列向二阶矩对投影后的梯度进行归一化；5. 更新模型参数。这个过程在每个训练步骤中迭代进行。

关键创新：Conda的关键创新在于结合了正交投影和列归一化。正交投影改善了谱条件，列归一化保留了逐坐标自适应性。这种结合克服了现有方法的局限性，使得Conda在训练大规模语言模型时能够更快地收敛。与AdamW相比，Conda在改善谱条件的同时，没有牺牲逐坐标自适应性；与Muon相比，Conda在保持谱条件改善的同时，保留了逐坐标自适应性。

关键设计：Conda的关键设计包括：1. 正交投影矩阵的计算方法；2. 列向二阶矩的计算方法；3. 归一化过程中的平滑项设置。论文中没有明确给出具体的正交投影矩阵的计算方法，这部分可能使用了现有的正交化技术。列向二阶矩的计算与Adam类似，但作用于投影后的梯度。归一化过程中添加了一个小的平滑项，以避免除以零的情况。

🖼️ 关键图片

📊 实验亮点

实验结果表明，Conda在LLaMA系列模型上的预训练速度比AdamW快2-2.5倍，以训练步骤和训练时间衡量。在GPT-2系列模型上，Conda也优于AdamW、Muon等基线。消融实验证明了Conda在不同训练设置下的鲁棒性，表明其具有广泛的适用性。

🎯 应用场景

Conda优化器可广泛应用于大规模语言模型的预训练，例如GPT系列、LLaMA系列等。其加速训练的特性可以显著降低训练成本，缩短研发周期，并促进更大规模、更复杂模型的开发。此外，Conda也有潜力应用于其他深度学习任务，特别是那些对优化动态敏感的任务。

📄 摘要（原文）

Large language models (LLMs) have demonstrated impressive generalization and emergent capabilities, yet their pre-training remains computationally expensive and sensitive to optimization dynamics. While Adam-based optimizers offer fast convergence by adapting learning rates coordinate-wise, recent studies reveal that their updates often suffer from poor spectral conditioning and low-rank structures, hindering efficiency. Muon addresses this issue via global spectral normalization but lacks the per-coordinate adaptivity of Adam. In this work, we propose Column-Normalized Adam (Conda), a novel optimizer that bridges the strengths of both approaches. Conda projects updates into an orthogonal subspace and applies column-wise second moment normalization based on the projected gradients, thereby achieving both improved spectral conditioning and maintaining coordinate-wise adaptivity. This design alleviates the spectral pathologies of Adam while preserving its fast convergence behavior. Extensive experiments on the LLaMA and GPT-2 series show that Conda consistently outperforms AdamW, Muon, and other baselines in pre-training. Remarkably, on the LLaMA series, Conda achieves 2-2.5 the convergence speed of AdamW, measured in both training steps and training time. Further ablations demonstrate its robustness under diverse training setups. These results collectively highlight Conda as an effective and broadly applicable optimizer for large-scale LLM training. The code is released on https://github.com/jie040109/Conda

Conda: Column-Normalized Adam for Training Large Language Models Faster

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理