Learn More, Forget Less: A Gradient-Aware Data Selection Approach for LLM

作者: Yibai Liu, Shihang Wang, Zeming Liu, Zheming Song, Junzhe Wang, Jingjing Liu, Qingjie Liu, Yunhong Wang

分类: cs.CL, cs.AI, cs.LG

发布日期: 2025-11-07

备注: Under review

💡 一句话要点

提出GrADS梯度感知数据选择方法，缓解LLM领域微调中的灾难性遗忘问题。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 有监督微调 数据选择 梯度感知 灾难性遗忘

📋 核心要点

领域微调LLM面临资源消耗大和灾难性遗忘的挑战，导致模型在通用能力上的性能下降。
GrADS方法通过分析梯度信息，自适应地选择对模型学习贡献最大的数据子集，提升微调效率。
实验表明，仅使用少量GrADS选择的数据，LLM就能超越全量数据微调的效果，并有效缓解灾难性遗忘。

📝 摘要（中文）

大型语言模型(LLM)在众多任务中取得了显著成就，但有监督微调(SFT)对于将这些模型适应于特定领域仍然至关重要。然而，领域专业化的SFT可能资源密集，并且有时会导致通用能力的性能下降，即灾难性遗忘(CF)。为了解决这些问题，我们提出了一种用于LLM有监督微调的自适应梯度感知数据选择方法(GrADS)，该方法通过分析初步训练阶段获得的梯度来识别有效的训练数据子集。具体来说，我们设计了自引导标准，利用梯度的幅度和统计分布来优先考虑对模型学习过程贡献最大的样本。这种方法能够获取代表性样本，从而增强LLM对特定领域任务的理解。通过在医学、法律和金融等不同领域对各种LLM进行的大量实验，GrADS证明了显著的效率和成本效益。值得注意的是，仅使用选定的GrADS数据的5%，LLM就已经超过了在整个数据集上进行微调的LLM的性能，并且增加到50%的数据会导致显著的改进！同时，灾难性遗忘也得到了显著缓解。我们将稍后发布GrADS的代码。

🔬 方法详解

问题定义：论文旨在解决大型语言模型（LLM）在特定领域进行有监督微调（SFT）时面临的两个主要问题：一是资源消耗大，全量数据微调成本高昂；二是灾难性遗忘（CF），即模型在适应新领域知识的同时，遗忘了原有的通用能力。现有方法通常采用全量数据微调，效率低下，且无法有效避免灾难性遗忘。

核心思路：GrADS的核心思路是通过梯度分析，选择对模型学习最有价值的数据子集进行微调。其基本假设是，对模型参数更新贡献越大的数据，其梯度幅度也越大，且梯度分布更具代表性。通过优先选择这些数据，可以在保证模型性能的同时，显著减少计算资源消耗，并缓解灾难性遗忘。

技术框架：GrADS方法主要包含以下几个阶段： 1. 初步训练阶段：使用少量数据对LLM进行初步训练，用于获取梯度信息。 2. 梯度计算阶段：计算每个训练样本在初步训练阶段产生的梯度。 3. 数据选择阶段：基于梯度的幅度和统计分布，使用自引导标准选择最具代表性的数据子集。 4. 微调阶段：使用选择的数据子集对LLM进行微调。

关键创新：GrADS的关键创新在于提出了一种自适应的梯度感知数据选择方法。与传统的随机抽样或基于数据重要性的选择方法不同，GrADS直接利用模型训练过程中的梯度信息，更准确地评估数据对模型学习的贡献。此外，自引导标准的引入使得数据选择过程更加灵活，能够适应不同领域和模型的特点。

关键设计：GrADS的关键设计包括： 1. 梯度幅度：使用梯度幅度作为数据重要性的指标，幅度越大，数据越重要。 2. 梯度分布：分析梯度分布的统计特性，例如方差，用于选择具有代表性的数据。 3. 自引导标准：设计自适应的阈值，根据梯度幅度和分布动态调整数据选择策略。具体的损失函数和网络结构沿用LLM的预训练模型。

🖼️ 关键图片

📊 实验亮点

实验结果表明，使用GrADS方法选择的5%数据进行微调，LLM的性能已经超过了使用全量数据进行微调的性能。当使用50%的GrADS选择数据时，性能得到显著提升，同时灾难性遗忘也得到了有效缓解。这些结果验证了GrADS方法在提高微调效率和缓解灾难性遗忘方面的有效性。

🎯 应用场景

GrADS方法可广泛应用于各种需要对LLM进行领域微调的场景，例如医学、法律、金融等。通过减少微调所需的数据量和计算资源，降低了LLM在特定领域应用的门槛。此外，缓解灾难性遗忘有助于保持LLM的通用能力，使其在多个领域都能表现出色。该方法有望加速LLM在各行业的落地应用。

📄 摘要（原文）

Despite large language models (LLMs) have achieved impressive achievements across numerous tasks, supervised fine-tuning (SFT) remains essential for adapting these models to specialized domains. However, SFT for domain specialization can be resource-intensive and sometimes leads to a deterioration in performance over general capabilities due to catastrophic forgetting (CF). To address these issues, we propose a self-adaptive gradient-aware data selection approach (GrADS) for supervised fine-tuning of LLMs, which identifies effective subsets of training data by analyzing gradients obtained from a preliminary training phase. Specifically, we design self-guided criteria that leverage the magnitude and statistical distribution of gradients to prioritize examples that contribute the most to the model's learning process. This approach enables the acquisition of representative samples that enhance LLMs understanding of domain-specific tasks. Through extensive experimentation with various LLMs across diverse domains such as medicine, law, and finance, GrADS has demonstrated significant efficiency and cost-effectiveness. Remarkably, utilizing merely 5% of the selected GrADS data, LLMs already surpass the performance of those fine-tuned on the entire dataset, and increasing to 50% of the data results in significant improvements! With catastrophic forgetting substantially mitigated simultaneously. We will release our code for GrADS later.

Learn More, Forget Less: A Gradient-Aware Data Selection Approach for LLM

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理