Utility-Diversity Aware Online Batch Selection for LLM Supervised Fine-tuning

📄 arXiv: 2510.16882v3 📥 PDF

作者: Heming Zou, Yixiu Mao, Yun Qu, Qi Wang, Xiangyang Ji

分类: cs.LG, cs.AI, cs.CL

发布日期: 2025-10-19 (更新: 2026-01-31)

备注: Preprint

🔗 代码/项目: GITHUB


💡 一句话要点

提出UDS框架,通过效用-多样性感知在线批量选择优化LLM监督微调。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 监督微调 在线批量选择 数据效用 数据多样性 核范数 低维嵌入

📋 核心要点

  1. 现有在线批量选择方法在LLM的SFT中,往往只关注数据效用,忽略了数据多样性,导致模型泛化能力受限。
  2. UDS框架通过logits矩阵的核范数同时捕获数据效用和样本内多样性,并使用低维嵌入比较估计样本间多样性。
  3. 实验结果表明,UDS在不同数据预算下均优于现有在线批量选择方法,并显著减少了训练时间。

📝 摘要(中文)

监督微调(SFT)是使大型语言模型(LLM)适应下游任务的常用技术。然而,在完整数据集上进行SFT计算成本高昂,有时还会遭受过拟合或偏差放大的影响。这促进了SFT中数据策展的兴起,其优先考虑最有价值的数据进行优化。本文研究了在线批量选择方法,该方法在训练过程中动态地对样本进行评分和过滤。然而,现有的流行方法通常(i)仅仅依靠数据的效用来选择子集,而忽略了其他关键因素,如多样性,(ii)依赖于外部资源,如参考模型或验证集,以及(iii)与完整数据集训练相比,会产生额外的训练时间。为了解决这些限制,本文开发了UDS(效用-多样性采样),这是一个用于SFT中高效在线批量选择的框架。UDS利用logits矩阵的核范数来捕获数据效用和样本内多样性,同时通过与历史样本的轻量级内存缓冲区进行高效的低维嵌入比较来估计样本间多样性。这种设计消除了对外部资源和不必要的反向传播的需求,从而确保了计算效率。在多个基准上的实验表明,在不同的数据预算下,UDS始终优于最先进的在线批量选择方法,并且与完整数据集微调相比,显著减少了训练时间。

🔬 方法详解

问题定义:现有在线批量选择方法在LLM的SFT中,主要痛点在于:1) 仅关注数据效用,忽略了数据多样性,导致选择的数据子集可能无法充分代表原始数据集的分布;2) 依赖外部资源(如参考模型或验证集)进行数据评估,增加了计算成本和复杂性;3) 引入额外的训练时间开销,降低了训练效率。

核心思路:UDS的核心思路是同时考虑数据效用和多样性,从而选择更具代表性的数据子集进行SFT。通过logits矩阵的核范数来衡量数据效用和样本内多样性,并使用低维嵌入比较来估计样本间多样性。这种设计旨在在不依赖外部资源和引入额外反向传播的情况下,实现高效的在线批量选择。

技术框架:UDS框架主要包含以下几个模块:1) 效用-多样性评估模块:利用LLM输出的logits矩阵计算核范数,作为数据效用和样本内多样性的度量。2) 样本间多样性估计模块:维护一个历史样本的轻量级内存缓冲区,并使用低维嵌入比较来估计当前样本与历史样本之间的相似度,从而衡量样本间多样性。3) 批量选择模块:根据效用-多样性评估和样本间多样性估计的结果,选择一批数据进行SFT。

关键创新:UDS的关键创新在于:1) 联合考虑效用和多样性:通过logits矩阵的核范数同时捕获数据效用和样本内多样性,避免了仅关注效用而忽略多样性的问题。2) 高效的样本间多样性估计:使用低维嵌入比较和轻量级内存缓冲区,实现了高效的样本间多样性估计,避免了昂贵的计算开销。3) 无需外部资源:UDS不需要参考模型或验证集,降低了对外部资源的依赖。

关键设计:1) 核范数的使用:logits矩阵的核范数被用作数据效用和样本内多样性的综合度量。核范数能够反映logits矩阵的秩,从而间接反映模型对该样本的置信度和预测结果的多样性。2) 低维嵌入的构建:使用LLM的中间层输出作为样本的低维嵌入,用于样本间多样性估计。3) 内存缓冲区的大小:内存缓冲区的大小是一个关键参数,需要根据数据集的大小和计算资源进行调整。缓冲区过小可能无法充分反映数据集的分布,缓冲区过大则会增加计算开销。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,UDS在多个基准数据集上均优于现有的在线批量选择方法。例如,在某些数据集上,UDS在相同数据预算下,能够将模型性能提升2-3个百分点。此外,UDS还能够显著减少训练时间,与完整数据集微调相比,可以节省高达50%的训练时间。

🎯 应用场景

UDS框架可应用于各种LLM的监督微调场景,尤其适用于数据量大、计算资源有限的情况。通过选择更具代表性的数据子集进行训练,可以提高模型的泛化能力和训练效率,降低计算成本。该方法在自然语言处理、机器翻译、文本生成等领域具有广泛的应用前景。

📄 摘要(原文)

Supervised fine-tuning (SFT) is a commonly used technique to adapt large language models (LLMs) to downstream tasks. In practice, SFT on a full dataset is computationally expensive and sometimes suffers from overfitting or bias amplification. This facilitates the rise of data curation in SFT, which prioritizes the most valuable data to optimze. This work studies the online batch selection family that dynamically scores and filters samples during the training process. However, existing popular methods often (i) rely merely on the utility of data to select a subset while neglecting other crucial factors like diversity, (ii) rely on external resources such as reference models or validation sets, and (iii) incur extra training time over full-dataset training. To address these limitations, this work develops UDS (Utility-Diversity Sampling), a framework for efficient online batch selection in SFT. UDS leverages the nuclear norm of the logits matrix to capture both data utility and intra-sample diversity, while estimating inter-sample diversity through efficient low-dimensional embedding comparisons with a lightweight memory buffer of historical samples. Such a design eliminates the need for external resources and unnecessary backpropagation, securing computational efficiency. Experiments on multiple benchmarks demonstrate that UDS consistently outperforms state-of-the-art online batch selection methods under varying data budgets, and significantly reduces training time compared to full-dataset fine-tuning. Code is available at https://github.com/gfyddha/UDS.