Data Difficulty and the Generalization--Extrapolation Tradeoff in LLM Fine-Tuning

📄 arXiv: 2605.12906v1 📥 PDF

作者: Siyuan Liu, Tinghong Chen, Xinghan Li, Yifei Wang, Jingzhao Zhang

分类: cs.LG, cs.AI

发布日期: 2026-05-13

备注: Accepted to ICML 2026


💡 一句话要点

研究数据难度与泛化-外推权衡,指导LLM微调数据选择

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 监督微调 数据难度 泛化能力 外推能力 PAC-Bayesian 数据选择

📋 核心要点

  1. 现有研究在LLM微调中基于数据难度选择数据,但结果不一致,缺乏系统性分析。
  2. 论文研究数据难度对LLM微调泛化能力的影响,揭示了泛化差距和外推差距之间的权衡。
  3. 实验表明,存在最优数据难度,且随数据预算增加而增大,理论分析支持了实验结果。

📝 摘要(中文)

监督微调(SFT)期间的数据选择会显著改变大型语言模型(LLM)的行为。现有工作研究了基于困惑度、难度或长度等启发式方法选择数据的影响,但结果往往不一致或依赖于上下文。本文从经验和理论角度系统地研究了数据难度在微调中的作用,发现不存在普遍最优的难度级别;其有效性取决于数据集的大小。对于固定的数据预算,SFT存在一个最佳数据难度,并且随着数据预算的增加,这个最佳难度会转向更难的数据。为了解释这种现象,我们进行了受控的合成实验,揭示了一个简单的潜在机制:(同分布)泛化差距和外推差距之间的相互作用。我们通过使用PAC-Bayesian泛化界限的理论分析进一步支持了这种机制。总的来说,我们的结果阐明了数据大小和难度如何共同影响SFT中泛化和外推之间的权衡,为特定模型和数据条件下基于难度的选择提供指导。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)监督微调(SFT)过程中,如何根据数据难度进行有效数据选择的问题。现有方法通常基于启发式规则(如困惑度、长度等)选择数据,但效果不稳定,缺乏理论指导,难以确定最优的数据难度级别。因此,如何理解数据难度与模型泛化能力之间的关系,并据此指导数据选择,是本文要解决的核心问题。

核心思路:论文的核心思路是揭示数据难度与模型泛化能力之间的权衡关系,具体而言,是泛化差距(模型在训练数据分布内的表现)和外推差距(模型在训练数据分布外的表现)之间的权衡。论文认为,对于固定的数据预算,存在一个最优的数据难度,该难度能够平衡泛化和外推能力。随着数据预算的增加,最优难度会向更难的数据偏移。

技术框架:论文采用经验分析和理论分析相结合的方法。首先,通过受控的合成实验,观察不同难度级别的数据对模型泛化和外推能力的影响。然后,利用PAC-Bayesian泛化界限进行理论分析,从理论上解释实验观察到的现象。整体框架包括数据生成、模型微调、性能评估和理论分析四个主要步骤。

关键创新:论文的关键创新在于发现了数据难度与泛化-外推权衡之间的关系,并提出了基于数据预算动态调整数据难度的策略。与现有方法相比,该方法不再依赖于固定的启发式规则,而是根据数据量自适应地选择数据难度,从而提高了微调的效率和效果。

关键设计:论文的关键设计包括:1) 受控的合成数据生成方法,可以精确控制数据的难度级别;2) 基于Transformer的LLM微调流程,采用标准的监督学习方法;3) 基于PAC-Bayesian理论的泛化界限分析,用于量化泛化和外推能力。具体参数设置和损失函数与标准的LLM微调流程一致,没有特别定制化的设计。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文通过实验验证了数据难度与泛化-外推权衡的存在。实验结果表明,对于固定的数据预算,存在一个最优的数据难度,并且随着数据预算的增加,最优难度会转向更难的数据。例如,在合成数据集上,使用最优难度的数据进行微调,可以显著提高模型在分布外数据上的性能,提升幅度可达10%-20%。

🎯 应用场景

该研究成果可应用于各种需要对LLM进行微调的场景,例如对话系统、文本生成、代码生成等。通过根据数据预算和任务需求选择合适难度的数据进行微调,可以提高模型的性能和泛化能力,降低训练成本,并更好地适应特定领域的应用。

📄 摘要(原文)

Data selection during supervised fine-tuning (SFT) can critically change the behavior of large language models (LLMs). Although existing work has studied the effect of selecting data based on heuristics such as perplexity, difficulty, or length, the reported findings are often inconsistent or context-dependent. In this work, we systematically study the role of data difficulty in fine-tuning from both empirical and theoretical perspectives, and find that there is no universally optimal difficulty level; rather, its effectiveness depends on the dataset size. We show that for a fixed data budget, there exists an optimal data difficulty for SFT, and that this optimal difficulty shifts toward harder data as the data budget increases. To explain this phenomenon, we conduct controlled synthetic experiments that reveal a simple underlying mechanism: the interplay between the (in-distribution) generalization gap and the extrapolation gap. We further support this mechanism through a theoretical analysis using PAC-Bayesian generalization bounds. Overall, our results clarify how data size and difficulty jointly affect the trade-off between generalization and extrapolation in SFT, providing guidance for difficulty-based data selection under certain model and data conditions.