The Stability of Singular Distribution: A Spectral Perspective on the Two-Phase Dynamics of Language Model Pre-training

📄 arXiv: 2605.26489v1 📥 PDF

作者: Hongtao Zhang, Wenjie Zhou, Chenxi Jia, Wei Chen, Xueqi Cheng

分类: cs.LG

发布日期: 2026-05-26


💡 一句话要点

揭示大语言模型预训练两阶段动态的谱视角:奇异分布稳定性(SoSD)

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 预训练 奇异值分解 谱分析 优化策略

📋 核心要点

  1. 现有大语言模型预训练存在两阶段动态,初期损失快速下降,后期改进缓慢,缺乏对其根本原因的理解。
  2. 论文提出奇异分布稳定性(SoSD)现象,即奇异值谱在训练早期稳定,并与损失下降的慢速阶段同步。
  3. 通过理论分析和实验验证,揭示了权重范数增长与SoSD阈值之间的关系,并解释了WSD和Muon等策略的有效性。

📝 摘要(中文)

大型语言模型预训练通常表现出两阶段的训练轨迹:快速的初始损失下降,随后是长时间的缓慢改进。本文发现了一种潜在的谱现象,即奇异分布稳定性(SoSD)。即使参数矩阵持续演化,迹归一化的奇异值谱也会提前稳定。研究表明,SoSD与慢速下降阶段之间的同步性广泛存在于不同的架构(GPT-2, LLaMA)和设置中,包括各种学习率调度策略(Step-wise, WSD, Cosine Decay)、权重衰减和优化器(AdamW, Muon)。通过分析简化的Transformer,证明了权重范数的增长不可避免地导致一个早期的SoSD阈值,超过该阈值后,损失下降的速率在理论上受到奇异分布变化的限制。进一步通过调节SoSD的尺度来解释WSD和Muon等策略,为理解高效的预训练动态提供了一个谱视角。

🔬 方法详解

问题定义:大语言模型预训练过程中,损失函数呈现典型的两阶段下降模式:初期快速下降,后期缓慢改进。现有研究缺乏对这种两阶段动态的深入理解,无法有效指导预训练过程的优化,例如如何选择合适的学习率调度策略、权重衰减等超参数。

核心思路:论文的核心思路是从谱分析的角度,研究模型参数矩阵的奇异值分布在预训练过程中的变化。作者发现,尽管模型参数持续更新,但其奇异值分布在训练早期就趋于稳定,这种现象被称为奇异分布稳定性(SoSD)。作者认为,SoSD的出现限制了后期损失下降的速度。

技术框架:论文首先通过实验观察到不同架构(GPT-2, LLaMA)和设置下SoSD现象的普遍存在。然后,作者建立了一个简化的Transformer模型,并从理论上证明了权重范数的增长会导致SoSD阈值的出现。最后,作者分析了WSD和Muon等优化策略如何通过调节SoSD的尺度来影响预训练动态。整体框架包括实验观察、理论分析和策略解释三个部分。

关键创新:论文最重要的创新在于发现了奇异分布稳定性(SoSD)这一现象,并将其与大语言模型预训练的两阶段动态联系起来。这种谱视角的分析为理解预训练过程提供了一种新的思路。此外,论文还从理论上证明了权重范数增长与SoSD阈值之间的关系,为优化预训练策略提供了理论依据。

关键设计:论文的关键设计包括:1) 使用迹归一化的奇异值谱来衡量奇异分布的稳定性;2) 建立简化的Transformer模型进行理论分析,以便推导出权重范数与SoSD阈值之间的关系;3) 通过实验验证不同学习率调度策略、权重衰减和优化器对SoSD的影响。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文通过实验验证了SoSD现象在不同架构(GPT-2, LLaMA)和设置下的普遍存在性。理论分析表明,权重范数的增长会导致一个早期的SoSD阈值,超过该阈值后,损失下降的速率受到奇异分布变化的限制。此外,论文还解释了WSD和Muon等策略如何通过调节SoSD的尺度来影响预训练动态。

🎯 应用场景

该研究成果可应用于指导大语言模型的预训练过程,例如选择合适的学习率调度策略、权重衰减等超参数,从而提高预训练效率和模型性能。此外,该研究提出的谱分析方法也可以应用于其他深度学习模型的训练过程分析,为理解模型训练动态提供新的视角。

📄 摘要(原文)

Large language model pre-training typically exhibits a two-phase trajectory: a fast initial loss drop followed by a prolonged slow improvement. We identify an underlying spectral phenomenon, Stability of Singular Distribution (SoSD), where the trace-normalized singular value spectrum stabilizes early, even as parameter matrices continue to evolve. We demonstrate that synchronization between SoSD and the slow-descent regime is widely observed across diverse architectures (GPT-2, LLaMA) and settings, including various schedules (Step-wise, WSD, Cosine Decay), weight decays, and optimizers (AdamW, Muon). By analyzing a simplified Transformer, we prove that growing weight norms inevitably precipitate an early SoSD threshold, after which the rate of loss decrease becomes theoretically bounded by the variation in the singular distribution. We further interpret strategies like WSD and Muon through their ability to modulate the SoSD scale, offering a spectral lens for understanding efficient pre-training dynamics.