Revisiting the Adam-SGD Gap in LLM Pre-Training: The Role of Large Effective Learning Rates

作者: Athanasios Glentis, Dawei Li, Chung-Yiu Yau, Mingyi Hong

分类: cs.LG

发布日期: 2026-05-18

💡 一句话要点

通过稳定SGD的大学习率，显著缩小LLM预训练中Adam与SGD的性能差距

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 预训练 随机梯度下降 Adam优化器 梯度裁剪 有效学习率 优化算法

📋 核心要点

现有观点认为SGD在LLM预训练中远逊于Adam，但原因不明。本文指出SGD无法维持与Adam相当的大有效学习率是主要原因。
论文核心在于通过梯度裁剪等方法，稳定SGD在大型学习率下的训练，使其能够逼近Adam的性能。
实验结果表明，通过稳定SGD，可以显著缩小与Adam的性能差距，验证损失差距从50%以上降至3.5%左右。

📝 摘要（中文）

目前普遍认为，在大型语言模型（LLM）的预训练中，随机梯度下降（SGD）的性能明显逊于自适应优化器（如Adam）。本文将这种差距主要归因于SGD无法维持与Adam相当的大有效学习率。通过对LLM预训练动态的实证和理论分析，我们发现训练的特点是梯度范数小和权重-梯度比大，这种效应随着预训练中常用的大批量尺寸而变得更加明显，因此需要更大的有效学习率。然而，输出层梯度幅度在token类别之间变得高度不均匀，并且在训练期间频繁出现大的梯度峰值。这些效应共同严重限制了SGD的可接受学习率。基于这种理解，我们表明，简单的裁剪机制可以在大学习率下稳定SGD，使其能够恢复Adam的大部分性能。在我们的实验中，当使用1M token的批量大小预训练一个10亿参数的LLaMA模型时，大学习率SGD和Adam之间的验证损失差距从超过50%缩小到仅约3.5%。

🔬 方法详解

问题定义：论文旨在解决LLM预训练中，SGD优化器性能显著低于Adam等自适应优化器的问题。现有方法在预训练LLM时，通常依赖Adam等自适应优化器，认为SGD难以达到相同的性能水平。然而，这种性能差距的根本原因尚不明确，限制了对优化器选择的理论理解和实际应用。

核心思路：论文的核心思路是认为SGD的性能瓶颈在于其难以维持与Adam相当的大有效学习率。通过分析LLM预训练过程中的梯度和权重动态，发现SGD由于梯度不均匀和梯度爆炸等问题，被迫使用较小的学习率，从而限制了其性能。因此，通过引入梯度裁剪等技术，稳定SGD在大学习率下的训练，使其能够达到与Adam相近的性能。

技术框架：论文主要通过实验分析和理论推导来验证其核心思路。首先，通过实证分析，观察LLM预训练过程中梯度范数、权重-梯度比等指标的变化，揭示SGD在大学习率下遇到的问题。然后，提出基于梯度裁剪的稳定SGD训练方法。最后，通过大规模实验，对比稳定SGD和Adam在LLM预训练中的性能表现。

关键创新：论文最重要的技术创新在于揭示了SGD在LLM预训练中性能瓶颈的根本原因，即无法维持与Adam相当的大有效学习率。并在此基础上，提出了简单有效的梯度裁剪方法，使得SGD能够在大学习率下稳定训练，从而显著缩小了与Adam的性能差距。与现有方法相比，该研究更深入地理解了优化器选择对LLM预训练的影响。

关键设计：论文的关键设计包括：1）对LLM预训练过程中的梯度范数、权重-梯度比等指标进行细致的实证分析；2）提出基于梯度裁剪的稳定SGD训练方法，具体实现方式未知；3）在大规模LLM预训练任务上，对比稳定SGD和Adam的性能表现，验证所提出方法的有效性。

🖼️ 关键图片

📊 实验亮点

实验结果表明，通过使用梯度裁剪等方法稳定SGD，可以显著缩小与Adam的性能差距。在使用1M token的批量大小预训练一个10亿参数的LLaMA模型时，大学习率SGD和Adam之间的验证损失差距从超过50%缩小到仅约3.5%。这表明，通过适当的优化策略，SGD可以达到与Adam相近的性能水平。

🎯 应用场景

该研究成果可应用于大规模语言模型的预训练，有助于降低训练成本，提高训练效率。通过使用稳定SGD替代Adam等自适应优化器，可以减少计算资源消耗，并为研究人员提供更多优化器选择。此外，该研究对理解不同优化器在LLM预训练中的作用具有重要理论价值，有助于未来开发更高效的优化算法。

📄 摘要（原文）

It is widely believed that stochastic gradient descent (SGD) performs significantly worse than adaptive optimizers such as Adam in pre-training Large Language Models (LLMs). Yet the underlying reason for this gap remains unclear. In this work, we attribute a large part of the discrepancy to SGD's inability to sustain learning rates comparable to Adam's much larger effective learning rates. Through empirical and theoretical analysis of LLM pre-training dynamics, we identify that training is characterized by small gradient norms and large weight-to-gradient ratios, an effect that becomes more pronounced with larger batch sizes typical in pre-training, necessitating such large effective learning rates. However, we find that output-layer gradient magnitudes become highly uneven across token classes, and that large gradient spikes frequently occur during training. Together, these effects severely restrict the admissible learning rate of SGD. Guided by this understanding, we show that simple clipping mechanisms that stabilize SGD at large learning rates enable it to recover most of Adam's performance. In our large-scale experiments, the validation loss gap between large-learning-rate SGD and Adam shrinks from more than 50% to only about 3.5% when pre-training a 1B-parameter LLaMA model with a 1M-token batch size.

Revisiting the Adam-SGD Gap in LLM Pre-Training: The Role of Large Effective Learning Rates

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理