Pre-training LLM without Learning Rate Decay Enhances Supervised Fine-Tuning
作者: Kazuki Yano, Shun Kiyono, Sosuke Kobayashi, Sho Takase, Jun Suzuki
分类: cs.CL, cs.LG
发布日期: 2026-03-17
备注: 25 pages, accepted by ICLR 2026 as a conference paper
💡 一句话要点
预训练LLM不使用学习率衰减可增强监督微调性能
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 预训练 学习率调度 监督微调 泛化能力 损失景观 WSO策略
📋 核心要点
- 现有方法通常采用基于衰减的学习率调度器来优化LLM预训练,但其对下游微调性能的影响尚不明确。
- 论文提出Warmup-Stable-Only (WSO)策略,即预热后保持恒定学习率,不进行衰减,以提升模型下游任务的适应性。
- 实验结果表明,WSO策略在1B和8B参数模型上,即使预训练损失较高,微调后的下游任务性能也优于衰减策略。
📝 摘要(中文)
本文研究了大规模语言模型预训练中学习率调度策略的作用,重点关注其对监督微调(SFT)后下游性能的影响。基于衰减的学习率调度器被广泛用于最小化预训练损失。然而,尽管它们被广泛使用,但这些调度器如何影响SFT后的性能仍未得到充分探索。在本文中,我们研究了Warmup-Stable-Only (WSO),它在预热后保持恒定的学习率,没有任何衰减。通过对1B和8B参数模型的实验,我们表明,WSO在SFT后的性能方面始终优于基于衰减的调度器,即使基于衰减的调度器在预训练后可能表现出更好的性能。该结果也适用于中期训练和过度训练的不同情况。损失景观分析进一步表明,基于衰减的调度器将模型引导到更尖锐的最小值,而WSO保留了支持适应性的更平坦的最小值。这些发现表明,应用LR衰减来改善预训练指标可能会损害下游适应性。我们的工作还为训练和模型发布策略提供了实践指导,强调使用WSO预训练模型可增强其对下游任务的适应性。
🔬 方法详解
问题定义:现有的大语言模型预训练通常采用基于衰减的学习率调度策略,旨在最小化预训练损失。然而,这种策略对模型在下游任务进行监督微调后的性能影响并不明确。现有方法的痛点在于,过度关注预训练损失的降低,可能导致模型陷入局部最优,从而损害其在下游任务中的泛化能力和适应性。
核心思路:论文的核心思路是探索一种新的学习率调度策略,即Warmup-Stable-Only (WSO),该策略在预热阶段后保持学习率恒定,不进行衰减。这样设计的目的是为了避免模型在预训练阶段过早收敛到尖锐的局部最小值,从而保留模型在损失景观中探索更广阔区域的能力,使其能够更好地适应下游任务。
技术框架:论文采用标准的预训练和监督微调流程。首先,使用WSO或基于衰减的学习率调度器对大语言模型进行预训练。然后,使用预训练得到的模型权重作为初始化,在下游任务数据集上进行监督微调。最后,评估微调后模型在下游任务上的性能。关键在于比较不同学习率调度策略预训练的模型,在经过相同微调流程后的性能差异。
关键创新:最重要的技术创新点在于提出了WSO学习率调度策略,并证明了其在提升下游任务性能方面的有效性。与现有基于衰减的策略不同,WSO策略旨在保留模型在预训练阶段的探索能力,避免过早收敛到尖锐的局部最小值。这种策略的本质区别在于,它更加关注模型的泛化能力和适应性,而不是仅仅追求预训练损失的最小化。
关键设计:WSO策略的关键设计在于预热阶段后的恒定学习率。论文中,预热阶段的学习率线性增加到预设值,之后保持该值不变,直到训练结束。具体的学习率数值和预热步数需要根据模型大小和数据集进行调整。此外,论文还分析了不同学习率调度策略下模型的损失景观,以解释WSO策略的有效性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在1B和8B参数模型上,WSO策略预训练的模型在经过监督微调后,下游任务性能始终优于基于衰减的学习率调度器预训练的模型,即使基于衰减的调度器在预训练阶段表现出更低的损失。损失景观分析表明,WSO策略有助于模型保留更平坦的最小值,从而提升模型的泛化能力。
🎯 应用场景
该研究成果可应用于大语言模型的预训练和发布。模型开发者可以采用WSO策略进行预训练,从而获得更具适应性的基础模型,方便用户在各种下游任务上进行微调。该方法尤其适用于需要快速适应新任务的场景,例如,在资源有限的情况下,快速定制特定领域的语言模型。
📄 摘要(原文)
We investigate the role of learning rate scheduling in the large-scale pre-training of large language models, focusing on its influence on downstream performance after supervised fine-tuning (SFT). Decay-based learning rate schedulers are widely used to minimize pre-training loss. However, despite their widespread use, how these schedulers affect performance after SFT remains underexplored. In this paper, we examine Warmup-Stable-Only (WSO), which maintains a constant learning rate after warmup without any decay. Through experiments with 1B and 8B parameter models, we show that WSO consistently outperforms decay-based schedulers in terms of performance after SFT, even though decay-based schedulers may exhibit better performance after pre-training. The result also holds across different regimes with mid-training and over-training. Loss landscape analysis further reveals that decay-based schedulers lead models into sharper minima, whereas WSO preserves flatter minima that support adaptability. These findings indicate that applying LR decay to improve pre-training metrics may compromise downstream adaptability. Our work also provides practical guidance for training and model release strategies, highlighting that pre-training models with WSO enhances their adaptability for downstream tasks.