Overtrained Language Models Are Harder to Fine-Tune

作者: Jacob Mitchell Springer, Sachin Goyal, Kaiyue Wen, Tanishq Kumar, Xiang Yue, Sadhika Malladi, Graham Neubig, Aditi Raghunathan

分类: cs.CL, cs.AI

发布日期: 2025-03-24 (更新: 2025-03-28)

备注: 72 pages, 65 figures, 6 tables

💡 一句话要点

揭示大语言模型过度训练导致微调困难的“灾难性过度训练”现象

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 过度训练 微调 参数敏感性 预训练策略

📋 核心要点

现有大语言模型预训练通常认为更多数据带来更好性能，但本文发现过度预训练反而会降低下游微调性能。
论文核心在于揭示了“灾难性过度训练”现象，即模型在过度预训练后对参数修改更加敏感，导致微调效果变差。
实验表明，过度预训练的模型在多个LLM基准测试中性能下降，验证了过度训练对下游任务的负面影响。

📝 摘要（中文）

本文挑战了“更好的预训练性能转化为更优下游模型”的假设，揭示了扩展预训练可能导致模型更难微调，最终性能下降的现象，称之为“灾难性过度训练”。例如，在3T tokens上预训练的指令微调OLMo-1B模型，在多个标准LLM基准测试上的性能比其2.3T token版本差2%以上。通过受控实验和理论分析，表明灾难性过度训练源于预训练参数对修改（包括但不限于微调）的广泛敏感性系统性增加。研究结果呼吁重新评估预训练设计，需考虑模型的下游适应性。

🔬 方法详解

问题定义：论文旨在解决大语言模型预训练过程中，过度训练导致下游微调性能下降的问题。现有方法通常认为预训练数据越多越好，但实际情况并非如此，过度训练会导致模型泛化能力下降，难以适应新的任务。

核心思路：论文的核心思路是揭示“灾难性过度训练”现象，即模型在过度预训练后，其参数对各种修改（包括微调）的敏感性会系统性地增加。这种过度敏感性使得模型在微调过程中更容易偏离最优解，从而导致性能下降。

技术框架：论文通过控制预训练数据量，对比不同预训练程度的模型在下游任务上的微调性能。同时，通过理论分析，研究了模型参数对修改的敏感性与预训练程度之间的关系。整体框架包括：1)构建不同预训练程度的模型；2)在多个下游任务上进行微调；3)分析微调后的模型性能；4)理论分析参数敏感性。

关键创新：论文最重要的技术创新点在于发现了“灾难性过度训练”现象，并从参数敏感性的角度解释了其产生的原因。这挑战了以往认为预训练数据越多越好的观点，为大语言模型的预训练策略提供了新的视角。

关键设计：论文的关键设计包括：1)使用OLMo-1B模型作为研究对象，因为它是一个开源可控的模型；2)控制预训练的token数量，对比2.3T和3T token的预训练效果；3)在多个标准LLM基准测试上进行微调评估，包括MMLU、HellaSwag等；4)使用Fisher信息矩阵来衡量模型参数对修改的敏感性。

🖼️ 关键图片

📊 实验亮点

实验结果表明，在3T tokens上预训练的指令微调OLMo-1B模型，在多个标准LLM基准测试上的性能比其2.3T token版本差2%以上。这一结果直接验证了“灾难性过度训练”现象的存在，并量化了过度训练对模型性能的影响。此外，Fisher信息矩阵分析表明，过度预训练的模型参数对修改的敏感性显著增加。

🎯 应用场景

该研究成果对大语言模型的预训练策略具有重要指导意义，可以帮助研究人员和工程师更好地设计预训练方案，避免过度训练，提高模型在下游任务上的性能。此外，该研究也为模型压缩、知识蒸馏等领域提供了新的思路，有助于开发更高效、更适应特定场景的大语言模型。

📄 摘要（原文）

Large language models are pre-trained on ever-growing token budgets under the assumption that better pre-training performance translates to improved downstream models. In this work, we challenge this assumption and show that extended pre-training can make models harder to fine-tune, leading to degraded final performance. We term this phenomenon catastrophic overtraining. For example, the instruction-tuned OLMo-1B model pre-trained on 3T tokens leads to over 2% worse performance on multiple standard LLM benchmarks than its 2.3T token counterpart. Through controlled experiments and theoretical analysis, we show that catastrophic overtraining arises from a systematic increase in the broad sensitivity of pre-trained parameters to modifications, including but not limited to fine-tuning. Our findings call for a critical reassessment of pre-training design that considers the downstream adaptability of the model.

Overtrained Language Models Are Harder to Fine-Tune

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理