Overtrained Language Models Are Harder to Fine-Tune
作者: Jacob Mitchell Springer, Sachin Goyal, Kaiyue Wen, Tanishq Kumar, Xiang Yue, Sadhika Malladi, Graham Neubig, Aditi Raghunathan
分类: cs.CL, cs.AI
发布日期: 2025-03-24 (更新: 2025-03-28)
备注: 72 pages, 65 figures, 6 tables
💡 一句话要点
揭示大语言模型过度训练导致微调困难的“灾难性过度训练”现象
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 过度训练 微调 参数敏感性 预训练策略
📋 核心要点
- 现有大语言模型预训练通常认为更多数据带来更好性能,但本文发现过度预训练反而会降低下游微调性能。
- 论文核心在于揭示了“灾难性过度训练”现象,即模型在过度预训练后对参数修改更加敏感,导致微调效果变差。
- 实验表明,过度预训练的模型在多个LLM基准测试中性能下降,验证了过度训练对下游任务的负面影响。
📝 摘要(中文)
本文挑战了“更好的预训练性能转化为更优下游模型”的假设,揭示了扩展预训练可能导致模型更难微调,最终性能下降的现象,称之为“灾难性过度训练”。例如,在3T tokens上预训练的指令微调OLMo-1B模型,在多个标准LLM基准测试上的性能比其2.3T token版本差2%以上。通过受控实验和理论分析,表明灾难性过度训练源于预训练参数对修改(包括但不限于微调)的广泛敏感性系统性增加。研究结果呼吁重新评估预训练设计,需考虑模型的下游适应性。
🔬 方法详解
问题定义:论文旨在解决大语言模型预训练过程中,过度训练导致下游微调性能下降的问题。现有方法通常认为预训练数据越多越好,但实际情况并非如此,过度训练会导致模型泛化能力下降,难以适应新的任务。
核心思路:论文的核心思路是揭示“灾难性过度训练”现象,即模型在过度预训练后,其参数对各种修改(包括微调)的敏感性会系统性地增加。这种过度敏感性使得模型在微调过程中更容易偏离最优解,从而导致性能下降。
技术框架:论文通过控制预训练数据量,对比不同预训练程度的模型在下游任务上的微调性能。同时,通过理论分析,研究了模型参数对修改的敏感性与预训练程度之间的关系。整体框架包括:1)构建不同预训练程度的模型;2)在多个下游任务上进行微调;3)分析微调后的模型性能;4)理论分析参数敏感性。
关键创新:论文最重要的技术创新点在于发现了“灾难性过度训练”现象,并从参数敏感性的角度解释了其产生的原因。这挑战了以往认为预训练数据越多越好的观点,为大语言模型的预训练策略提供了新的视角。
关键设计:论文的关键设计包括:1)使用OLMo-1B模型作为研究对象,因为它是一个开源可控的模型;2)控制预训练的token数量,对比2.3T和3T token的预训练效果;3)在多个标准LLM基准测试上进行微调评估,包括MMLU、HellaSwag等;4)使用Fisher信息矩阵来衡量模型参数对修改的敏感性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在3T tokens上预训练的指令微调OLMo-1B模型,在多个标准LLM基准测试上的性能比其2.3T token版本差2%以上。这一结果直接验证了“灾难性过度训练”现象的存在,并量化了过度训练对模型性能的影响。此外,Fisher信息矩阵分析表明,过度预训练的模型参数对修改的敏感性显著增加。
🎯 应用场景
该研究成果对大语言模型的预训练策略具有重要指导意义,可以帮助研究人员和工程师更好地设计预训练方案,避免过度训练,提高模型在下游任务上的性能。此外,该研究也为模型压缩、知识蒸馏等领域提供了新的思路,有助于开发更高效、更适应特定场景的大语言模型。
📄 摘要(原文)
Large language models are pre-trained on ever-growing token budgets under the assumption that better pre-training performance translates to improved downstream models. In this work, we challenge this assumption and show that extended pre-training can make models harder to fine-tune, leading to degraded final performance. We term this phenomenon catastrophic overtraining. For example, the instruction-tuned OLMo-1B model pre-trained on 3T tokens leads to over 2% worse performance on multiple standard LLM benchmarks than its 2.3T token counterpart. Through controlled experiments and theoretical analysis, we show that catastrophic overtraining arises from a systematic increase in the broad sensitivity of pre-trained parameters to modifications, including but not limited to fine-tuning. Our findings call for a critical reassessment of pre-training design that considers the downstream adaptability of the model.