The Long-Term Effects of Data Selection in LLM Fine-Tuning

作者: Yuxin Yang, Aoxiong Zeng, Xiangquan Yang

分类: cs.LG

发布日期: 2026-05-28

备注: work in process

💡 一句话要点

研究LLM微调中数据选择的长期影响，揭示短视选择的潜在问题并提出改进方案。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 数据选择 长期学习 微调 短视选择 迁移学习 分布外鲁棒性

📋 核心要点

现有数据选择方法侧重于即时性能，忽略了对LLM长期适应性的影响，可能导致后续学习变慢和遗忘。
论文提出长期视角下的数据选择评估，关注适应速度、遗忘、能力平衡和分布外鲁棒性等长期指标。
通过实验发现“短视选择”现象，并提出LHAS目标，在即时效用的基础上增加覆盖率、迁移和反集中项。

📝 摘要（中文）

数据选择越来越多地被用于降低大型语言模型（LLM）微调的成本。目前的方法通常优先选择具有当前效用、多样性、质量或影响力的样本。本文研究了一个不同的问题：当微调分多个阶段进行时，现在看起来最优的选择策略是否会降低模型后续的适应能力？我们引入了LLM数据选择的长期视角，其中选择器不仅通过即时任务性能来评估，还通过未来的适应速度、遗忘、能力不平衡和分布外鲁棒性来评估。我们通过统一的多阶段协议比较了具有代表性的随机、基于损失、基于梯度、基于多样性、基于质量和基于效用-多样性的选择方法。通过精心设计的实验，我们展示了短期选择器如何表现出等级反转：它们提高了当前阶段的性能，同时减缓了后续的学习并增加了遗忘。我们将这种行为形式化为“短视选择”，对其发生的原因进行了简单的局部分析，并提出了一种诊断性的长期感知选择（LHAS）目标，该目标通过覆盖率、未来代理迁移和反集中项来增强即时效用。该研究认为，数据选择应该被评估为一种塑造模型学习轨迹的训练干预，而不仅仅是一种局部的数据效率机制。

🔬 方法详解

问题定义：论文旨在解决LLM微调中数据选择策略的长期影响问题。现有方法通常只关注当前阶段的性能提升，而忽略了数据选择对模型未来学习能力和泛化能力的影响。这种“短视选择”可能导致模型在后续阶段的学习速度减慢、遗忘先前知识或在不同任务上的能力不平衡。

核心思路：论文的核心思路是将数据选择视为一个长期优化问题，不仅要考虑当前阶段的性能，还要考虑其对模型未来学习轨迹的影响。通过引入长期视角，评估数据选择策略对模型适应速度、遗忘、能力平衡和分布外鲁棒性的影响，从而选择更适合长期训练的数据。

技术框架：论文构建了一个多阶段微调协议，用于评估不同数据选择策略的长期影响。该协议包括多个微调阶段，每个阶段使用不同的数据集和任务。在每个阶段，使用不同的数据选择策略选择一部分数据进行微调，然后评估模型在当前阶段和后续阶段的性能。通过比较不同选择策略在多个阶段的性能，可以评估其长期影响。

关键创新：论文的关键创新在于提出了“短视选择”的概念，并揭示了其对LLM长期学习的负面影响。此外，论文还提出了一个诊断性的长期感知选择（LHAS）目标，该目标通过覆盖率、未来代理迁移和反集中项来增强即时效用，从而缓解短视选择问题。

关键设计：LHAS目标的关键设计包括：1) 覆盖率项，用于确保选择的数据能够覆盖整个数据集的分布；2) 未来代理迁移项，用于评估选择的数据对未来任务的迁移能力；3) 反集中项，用于避免选择的数据过于集中在某些特定样本上。这些项共同作用，可以帮助选择更具有代表性和泛化能力的数据，从而提高LLM的长期学习效果。

🖼️ 关键图片

📊 实验亮点

实验结果表明，传统的基于损失或梯度的选择方法可能导致“短视选择”，降低模型在后续阶段的学习速度和泛化能力。而提出的LHAS目标能够有效缓解短视选择问题，提高模型的长期学习效果。具体而言，LHAS在多个基准测试中都取得了显著的性能提升，尤其是在分布外鲁棒性和能力平衡方面。

🎯 应用场景

该研究成果可应用于各种需要持续学习和适应的LLM应用场景，例如对话系统、智能助手和知识库问答系统。通过选择更适合长期训练的数据，可以提高LLM的适应性和鲁棒性，从而提升用户体验和应用效果。此外，该研究也为数据选择策略的设计提供了新的思路和方法。

📄 摘要（原文）

Data selection is increasingly used to reduce the cost of large language model (LLM) fine-tuning, with recent methods prioritizing samples by current utility, diversity, quality, or influence. This paper studies a different question: when fine-tuning occurs over multiple stages, can selection strategies that look optimal now make the model less adaptable later? We introduce a long-horizon view of LLM data selection in which a selector is evaluated not only by immediate task performance, but also by future adaptation speed, forgetting, capability imbalance, and out-of-distribution robustness. We compare representative random, loss-based, gradient-based, diversity-based, quality-based, and utility-diversity selection families under a unified multi-stage protocol. Through controlled experiments designed to instantiate this protocol, we show how short-term selectors can exhibit rank reversal: they improve the current stage while slowing subsequent learning and increasing forgetting. We formalize this behavior as \emph{myopic selection}, provide a simple local analysis of why it can occur, and propose a diagnostic Long-Horizon Aware Selection (LHAS) objective that augments immediate utility with coverage, future-proxy transfer, and anti-concentration terms. The study argues that data selection should be evaluated as a training intervention that shapes the model's learning trajectory, rather than only as a local data-efficiency mechanism.

The Long-Term Effects of Data Selection in LLM Fine-Tuning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理