Task-Specific Data Selection for Instruction Tuning via Monosemantic Neuronal Activations

📄 arXiv: 2503.15573v2 📥 PDF

作者: Da Ma, Gonghu Shang, Zhi Chen, Libo Qin, Yijie Luo, Lei Pan, Shuai Fan, Lu Chen, Kai Yu

分类: cs.LG

发布日期: 2025-03-19 (更新: 2025-05-16)

备注: preprint, (20 pages, 7 figures, 13 tables)


💡 一句话要点

提出基于单义神经元激活的任务特定指令调优数据选择方法

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 指令调优 数据选择 单义神经元 稀疏自编码器 大型语言模型 任务特定 模型中心

📋 核心要点

  1. 现有指令调优数据选择方法依赖不稳定的影响或无法准确捕捉模型内部样本处理方式的分布对齐。
  2. 论文提出一种以模型为中心的策略,利用稀疏自编码器将神经元激活解耦为单义表示,更准确反映内部计算。
  3. 实验表明,该方法在多个数据集、模型和任务上,稳定性和任务特定性能均优于现有数据选择基线。

📝 摘要(中文)

指令调优提升了大型语言模型(LLMs)遵循多样化人类指令的能力,但在特定目标任务上获得强大性能仍然具有挑战性。一个关键瓶颈是选择最相关的数据以最大化任务特定性能。现有的数据选择方法包括不稳定的基于影响的方法和更稳定的分布对齐方法,后者严重依赖于底层样本表示。实际上,从浅层特征(例如,BM25)到神经嵌入(例如,BGE,LLM2Vec)的大多数分布对齐方法可能无法捕获模型内部如何处理样本。为了弥合这一差距,我们采用了一种以模型为中心的策略,其中每个样本都由其在模型中的神经元激活模式表示,直接反映了内部计算。然而,由于神经元的多义性,直接使用原始神经元激活会导致不相关样本之间的虚假相似性,其中单个神经元可能对多个不相关的概念做出反应。为了解决这个问题,我们采用稀疏自编码器将多义激活解耦为稀疏的单义表示,并为此空间引入了专用的相似性度量,以更好地识别任务相关数据。跨多个指令数据集、模型、任务和选择比率的综合实验表明,我们的方法在稳定性和任务特定性能方面始终优于现有的数据选择基线。

🔬 方法详解

问题定义:指令调优旨在提升LLM遵循人类指令的能力,但现有数据选择方法难以有效选择任务相关数据。基于影响的方法不稳定,而基于分布对齐的方法(如BM25、BGE)无法准确捕捉模型内部如何处理样本,导致选择的数据与目标任务的相关性不高。

核心思路:论文的核心思路是以模型内部的神经元激活模式来表示样本,直接反映模型对样本的内部计算过程。通过分析神经元的激活情况,可以更准确地判断样本与目标任务的相关性。为了解决神经元多义性问题,引入稀疏自编码器进行解耦。

技术框架:整体框架包括以下几个主要步骤:1) 获取LLM对所有样本的神经元激活;2) 使用稀疏自编码器将原始激活解耦为单义表示;3) 定义单义表示空间的相似性度量;4) 根据相似性度量选择与目标任务相关的数据子集;5) 使用选择的数据子集进行指令调优。

关键创新:最重要的创新点在于使用单义神经元激活来表示样本,并设计了相应的相似性度量。与现有方法相比,该方法更直接地反映了模型内部的计算过程,从而能够更准确地选择任务相关数据。通过稀疏自编码器解耦神经元多义性,是保证表示质量的关键。

关键设计:稀疏自编码器的目标是学习到稀疏的隐藏层表示,从而将多义神经元的激活解耦为单义表示。损失函数包括重构损失和稀疏性惩罚项。相似性度量设计为基于单义神经元激活的余弦相似度,并进行归一化处理。选择比例是影响性能的关键参数,需要根据具体任务进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在多个指令数据集(如FLAN、Natural Instructions)和模型(如T5、BART)上均优于现有数据选择基线(如BM25、BGE)。在某些任务上,性能提升幅度超过5%。此外,该方法在不同选择比例下均表现出较好的稳定性。

🎯 应用场景

该研究成果可应用于各种指令调优场景,尤其是在数据资源有限或数据质量参差不齐的情况下。通过选择与目标任务最相关的数据,可以显著提升LLM在特定任务上的性能,降低训练成本,并加速模型迭代。该方法还可用于分析LLM内部的知识表示和推理过程。

📄 摘要(原文)

Instruction tuning improves the ability of large language models (LLMs) to follow diverse human instructions, but achieving strong performance on specific target tasks remains challenging. A critical bottleneck is selecting the most relevant data to maximize task-specific performance. Existing data selection approaches include unstable influence-based methods and more stable distribution alignment methods, the latter of which critically rely on the underlying sample representation. In practice, most distribution alignment methods, from shallow features (e.g., BM25) to neural embeddings (e.g., BGE, LLM2Vec), may fail to capture how the model internally processes samples. To bridge this gap, we adopt a model-centric strategy in which each sample is represented by its neuronal activation pattern in the model, directly reflecting internal computation. However, directly using raw neuron activations leads to spurious similarity between unrelated samples due to neuron polysemanticity, where a single neuron may respond to multiple, unrelated concepts. To address this, we employ sparse autoencoders to disentangle polysemantic activations into sparse, monosemantic representations, and introduce a dedicated similarity metric for this space to better identify task-relevant data. Comprehensive experiments across multiple instruction datasets, models, tasks, and selection ratios show that our approach consistently outperforms existing data selection baselines in both stability and task-specific performance.