The Long-Term Effects of Data Selection in LLM Fine-Tuning
作者: Yuxin Yang, Aoxiong Zeng, Xiangquan Yang
分类: cs.LG
发布日期: 2026-05-28
备注: work in process
💡 一句话要点
研究LLM微调中数据选择的长期影响,揭示短视选择的潜在问题并提出改进方案。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 数据选择 长期学习 微调 短视选择 迁移学习 分布外鲁棒性
📋 核心要点
- 现有数据选择方法侧重于即时性能,忽略了对LLM长期适应性的影响,可能导致后续学习变慢和遗忘。
- 论文提出长期视角下的数据选择评估,关注适应速度、遗忘、能力平衡和分布外鲁棒性等长期指标。
- 通过实验发现“短视选择”现象,并提出LHAS目标,在即时效用的基础上增加覆盖率、迁移和反集中项。
📝 摘要(中文)
数据选择越来越多地被用于降低大型语言模型(LLM)微调的成本。目前的方法通常优先选择具有当前效用、多样性、质量或影响力的样本。本文研究了一个不同的问题:当微调分多个阶段进行时,现在看起来最优的选择策略是否会降低模型后续的适应能力?我们引入了LLM数据选择的长期视角,其中选择器不仅通过即时任务性能来评估,还通过未来的适应速度、遗忘、能力不平衡和分布外鲁棒性来评估。我们通过统一的多阶段协议比较了具有代表性的随机、基于损失、基于梯度、基于多样性、基于质量和基于效用-多样性的选择方法。通过精心设计的实验,我们展示了短期选择器如何表现出等级反转:它们提高了当前阶段的性能,同时减缓了后续的学习并增加了遗忘。我们将这种行为形式化为“短视选择”,对其发生的原因进行了简单的局部分析,并提出了一种诊断性的长期感知选择(LHAS)目标,该目标通过覆盖率、未来代理迁移和反集中项来增强即时效用。该研究认为,数据选择应该被评估为一种塑造模型学习轨迹的训练干预,而不仅仅是一种局部的数据效率机制。
🔬 方法详解
问题定义:论文旨在解决LLM微调中数据选择策略的长期影响问题。现有方法通常只关注当前阶段的性能提升,而忽略了数据选择对模型未来学习能力和泛化能力的影响。这种“短视选择”可能导致模型在后续阶段的学习速度减慢、遗忘先前知识或在不同任务上的能力不平衡。
核心思路:论文的核心思路是将数据选择视为一个长期优化问题,不仅要考虑当前阶段的性能,还要考虑其对模型未来学习轨迹的影响。通过引入长期视角,评估数据选择策略对模型适应速度、遗忘、能力平衡和分布外鲁棒性的影响,从而选择更适合长期训练的数据。
技术框架:论文构建了一个多阶段微调协议,用于评估不同数据选择策略的长期影响。该协议包括多个微调阶段,每个阶段使用不同的数据集和任务。在每个阶段,使用不同的数据选择策略选择一部分数据进行微调,然后评估模型在当前阶段和后续阶段的性能。通过比较不同选择策略在多个阶段的性能,可以评估其长期影响。
关键创新:论文的关键创新在于提出了“短视选择”的概念,并揭示了其对LLM长期学习的负面影响。此外,论文还提出了一个诊断性的长期感知选择(LHAS)目标,该目标通过覆盖率、未来代理迁移和反集中项来增强即时效用,从而缓解短视选择问题。
关键设计:LHAS目标的关键设计包括:1) 覆盖率项,用于确保选择的数据能够覆盖整个数据集的分布;2) 未来代理迁移项,用于评估选择的数据对未来任务的迁移能力;3) 反集中项,用于避免选择的数据过于集中在某些特定样本上。这些项共同作用,可以帮助选择更具有代表性和泛化能力的数据,从而提高LLM的长期学习效果。
🖼️ 关键图片
📊 实验亮点
实验结果表明,传统的基于损失或梯度的选择方法可能导致“短视选择”,降低模型在后续阶段的学习速度和泛化能力。而提出的LHAS目标能够有效缓解短视选择问题,提高模型的长期学习效果。具体而言,LHAS在多个基准测试中都取得了显著的性能提升,尤其是在分布外鲁棒性和能力平衡方面。
🎯 应用场景
该研究成果可应用于各种需要持续学习和适应的LLM应用场景,例如对话系统、智能助手和知识库问答系统。通过选择更适合长期训练的数据,可以提高LLM的适应性和鲁棒性,从而提升用户体验和应用效果。此外,该研究也为数据选择策略的设计提供了新的思路和方法。
📄 摘要(原文)
Data selection is increasingly used to reduce the cost of large language model (LLM) fine-tuning, with recent methods prioritizing samples by current utility, diversity, quality, or influence. This paper studies a different question: when fine-tuning occurs over multiple stages, can selection strategies that look optimal now make the model less adaptable later? We introduce a long-horizon view of LLM data selection in which a selector is evaluated not only by immediate task performance, but also by future adaptation speed, forgetting, capability imbalance, and out-of-distribution robustness. We compare representative random, loss-based, gradient-based, diversity-based, quality-based, and utility-diversity selection families under a unified multi-stage protocol. Through controlled experiments designed to instantiate this protocol, we show how short-term selectors can exhibit rank reversal: they improve the current stage while slowing subsequent learning and increasing forgetting. We formalize this behavior as \emph{myopic selection}, provide a simple local analysis of why it can occur, and propose a diagnostic Long-Horizon Aware Selection (LHAS) objective that augments immediate utility with coverage, future-proxy transfer, and anti-concentration terms. The study argues that data selection should be evaluated as a training intervention that shapes the model's learning trajectory, rather than only as a local data-efficiency mechanism.