MADS: Model-Aware Diverse Core Set Selection for Instruction Tuning

📄 arXiv: 2605.30857v1 📥 PDF

作者: Yi Bai, Wenhao Zhang, Yao Chen, Jiao Xue, Zhumin Chen, Pengjie Ren

分类: cs.CL

发布日期: 2026-05-29


💡 一句话要点

提出模型感知的多样核心集选择方法以解决指令微调数据选择问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 指令微调 核心集选择 模型感知 神经激活 数据多样性 性能提升

📋 核心要点

  1. 现有方法在选择指令微调数据时,未能充分考虑大型语言模型的内部理解,导致核心集多样性不足。
  2. 本文提出了一种新的选择方法,利用模型在推理时的神经激活状态来区分数据特征,从而提高核心集的多样性。
  3. 实验结果显示,使用3B参数的LLM选择的核心集在微调7B、8B和13B参数的模型时,性能提升达2.5%。

📝 摘要(中文)

指令微调用于提升大型语言模型(LLMs)的指令跟随能力。随着指令微调数据量的增加,选择最佳核心集变得尤为重要。然而,确保核心集的多样性仍然是一个重大挑战。现有方法主要基于文本特征区分训练数据,与LLMs对数据的理解和表示脱节。为了解决这一问题,本文提出了一种模型感知的多样核心集选择方法,该方法基于LLM推理过程中的神经激活状态来区分数据特征。这种方法有效地利用模型内在的激活特征进行基于覆盖的选择,以确保核心集的多样性。我们在六个基准上进行了广泛评估,结果表明,所选核心集在微调更大模型时表现出色。

🔬 方法详解

问题定义:本文旨在解决指令微调过程中核心集选择的多样性不足问题。现有方法主要依赖文本特征进行数据区分,未能考虑LLMs对数据的内在理解,导致选择的核心集缺乏多样性。

核心思路:我们提出了一种模型感知的多样核心集选择方法,通过分析LLM推理过程中的神经激活状态来区分数据特征。这种方法能够更有效地捕捉数据的多样性,从而提高微调效果。

技术框架:该方法的整体架构包括数据预处理、神经激活状态提取、核心集选择和模型微调四个主要模块。首先,对输入数据进行预处理,然后在LLM推理过程中提取神经激活状态,接着基于这些状态进行核心集选择,最后利用选定的核心集进行模型微调。

关键创新:本文的主要创新在于将模型内部的激活特征引入到核心集选择过程中,与现有方法相比,这种方法能够更好地反映数据的多样性,从而提升微调效果。

关键设计:在技术细节上,我们设置了适当的参数以优化激活状态的提取过程,并设计了基于覆盖的选择策略,以确保所选核心集的多样性和代表性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,使用Llama-3.2-3B-Instruct选择的核心集,大小为原数据集的15%,在微调四个更大基模型时,平均提升了2.5%的性能。这一结果显著优于使用完整数据集进行训练的基线,展示了方法的有效性和优势。

🎯 应用场景

该研究的潜在应用领域包括自然语言处理、对话系统和智能助手等。通过优化指令微调数据的选择,可以显著提升大型语言模型的性能,降低数据需求,从而在资源有限的情况下实现更高效的模型训练。这一方法的推广将对未来的AI系统开发产生深远影响。

📄 摘要(原文)

Instruction fine-tuning is employed to enhance the instruction-following ability of large language models (LLMs). As the amount of instruction fine-tuning data increases, selecting the optimal core set becomes particularly important. However, ensuring the diversity of the core set remains a significant challenge. Existing methods predominantly distinguish different training data based on the text features themselves, decoupled from LLMs' own understanding and representation of the data. To address this issue, we propose a Model-Aware Diverse Core Set Selection method, which distinguishes data features based on the neural activation states during LLM inference. This approach serves as an efficient instantiation of coverage-based selection using model-intrinsic activation features to ensure the diversity in the core set. We extensively evaluate our method on six benchmarks that cover five distinct tasks. In our method, the core set selected by the 3B-parameter LLM performs effectively when utilized to fine-tune larger models with 7B, 8B, and 13B parameters. Experimental results on the Alpaca-GPT4 dataset, which comprises 52K instruction-response pairs, show that the core set, sized at 15\% of the original dataset and selected by Llama-3.2-3B-Instruct, achieves an average improvement of 2.5\% when fine-tuning four larger base models compared with training on the full dataset. The experimental results demonstrate that our method enhances model performance on multiple downstream tasks while reducing data requirements.