FisherSFT: Data-Efficient Supervised Fine-Tuning of Language Models Using Information Gain

📄 arXiv: 2505.14826v1 📥 PDF

作者: Rohan Deb, Kiran Thekumparampil, Kousha Kalantari, Gaurush Hiranandani, Shoham Sabach, Branislav Kveton

分类: cs.LG, cs.CL, stat.ML

发布日期: 2025-05-20


💡 一句话要点

FisherSFT:利用信息增益实现语言模型的高效监督微调

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 监督微调 数据效率 信息增益 Hessian矩阵 语言模型 样本选择 计算效率

📋 核心要点

  1. 现有SFT方法在数据利用率方面存在不足,需要大量标注数据才能达到理想效果,计算成本高昂。
  2. FisherSFT的核心思想是选择最具信息量的训练样本子集,通过最大化信息增益来提升SFT的效率。
  3. 实验结果表明,FisherSFT在多个任务上表现出色,在保证性能的同时,显著降低了数据需求和计算成本。

📝 摘要(中文)

监督微调(SFT)是使大型语言模型(LLM)适应新领域的标准方法。本文旨在通过选择信息量大的训练样本子集来提高SFT的统计效率。具体而言,对于固定的训练样本预算(决定了微调的计算成本),我们确定最具信息量的样本。该方法的关键思想是选择最大化信息增益的样本,信息增益通过LLM对数似然的Hessian矩阵来衡量。我们通过使用多项式逻辑回归模型在线性化LLM最后一层来高效地近似Hessian矩阵。我们的方法计算效率高,可分析性强,并且在经验上表现良好。我们在多个问题上证明了这一点,并通过定量结果和LLM评估来支持我们的主张。

🔬 方法详解

问题定义:论文旨在解决监督微调(SFT)过程中数据效率低下的问题。传统的SFT方法通常需要大量的标注数据才能使大型语言模型(LLM)适应新的领域,这导致了高昂的计算成本和时间消耗。因此,如何在有限的训练数据预算下,最大化SFT的性能,成为了一个重要的挑战。

核心思路:论文的核心思路是选择最具信息量的训练样本子集进行微调。具体而言,通过最大化信息增益来确定哪些样本对于模型学习最有帮助。信息增益通过LLM对数似然的Hessian矩阵来衡量,Hessian矩阵反映了模型参数对每个样本的敏感程度。选择Hessian矩阵较大的样本,意味着这些样本对模型参数的影响更大,能够更有效地提升模型性能。

技术框架:FisherSFT的整体框架包括以下几个主要步骤:1. 使用预训练的LLM作为初始模型。2. 计算每个训练样本的信息增益,通过LLM最后一层的线性化近似Hessian矩阵。3. 根据信息增益对训练样本进行排序,选择信息增益最高的子集。4. 使用选择的子集对LLM进行监督微调。

关键创新:FisherSFT的关键创新在于使用信息增益来指导训练样本的选择。与随机选择或基于数据多样性的选择方法相比,FisherSFT能够更准确地识别出对模型学习最有价值的样本。此外,通过线性化LLM最后一层来近似Hessian矩阵,显著降低了计算复杂度,使得该方法能够应用于大型语言模型。

关键设计:FisherSFT的关键设计包括:1. 使用多项式逻辑回归模型来线性化LLM的最后一层,从而高效地计算Hessian矩阵的近似值。2. 使用贪心算法来选择信息增益最高的样本子集。3. 可以灵活地调整选择的样本数量,以适应不同的计算资源和性能需求。论文没有明确提及特定的损失函数或网络结构修改,而是侧重于样本选择策略的优化。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文在多个数据集上进行了实验,结果表明FisherSFT在数据效率方面优于传统的SFT方法。例如,在某个文本分类任务上,FisherSFT仅使用20%的训练数据就达到了与使用全部数据进行SFT相当的性能。此外,FisherSFT还能够有效地提升LLM的泛化能力,在未见过的测试数据上表现更好。

🎯 应用场景

FisherSFT可应用于各种需要对大型语言模型进行微调的场景,例如文本分类、情感分析、问答系统和机器翻译等。该方法尤其适用于数据资源有限的领域,能够显著降低标注成本和计算资源需求,加速LLM的应用和普及。未来,FisherSFT可以与其他数据增强技术相结合,进一步提升SFT的性能和效率。

📄 摘要(原文)

Supervised fine-tuning (SFT) is a standard approach to adapting large language models (LLMs) to new domains. In this work, we improve the statistical efficiency of SFT by selecting an informative subset of training examples. Specifically, for a fixed budget of training examples, which determines the computational cost of fine-tuning, we determine the most informative ones. The key idea in our method is to select examples that maximize information gain, measured by the Hessian of the log-likelihood of the LLM. We approximate it efficiently by linearizing the LLM at the last layer using multinomial logistic regression models. Our approach is computationally efficient, analyzable, and performs well empirically. We demonstrate this on several problems, and back our claims with both quantitative results and an LLM evaluation.