The Harder The Better: Maintaining Supervised Fine-tuning Generalization with Less but Harder Data

📄 arXiv: 2510.13892v1 📥 PDF

作者: Zhaoyang Shang, Sibo Wei, Jianbin Guo, Rui Zhou, Lifeng Dong, Yin Luo

分类: cs.CL

发布日期: 2025-10-14

🔗 代码/项目: GITHUB


💡 一句话要点

提出THTB框架,通过更少但更难的数据维持监督微调的泛化能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 监督微调 数据选择 难度评分 领域自适应 认知科学

📋 核心要点

  1. 现有SFT数据选择方法过度依赖LLM内部知识,缺乏可解释性,泛化能力受限。
  2. THTB框架受认知科学启发,结合质量过滤与难度评分,选择更高认知层次的指令数据。
  3. 实验表明,THTB仅用少量数据训练的模型即可超越全数据集训练,并提升泛化能力。

📝 摘要(中文)

大型语言模型(LLMs)在通用任务中表现出色,但将其应用于特定领域需要高质量的监督微调(SFT)数据。现有方法虽然可以识别高质量数据子集并降低训练成本,但其选择过程仍然过度依赖LLM的内部知识,可解释性较弱,泛化能力有限。为了解决这些局限性,我们提出了THTB (The Harder The Better),这是一个受认知科学启发的指令数据选择和标注指导框架。THTB通过结合质量过滤与内在和外在难度评分,优先考虑更高层次的认知指令,为高效的SFT提供可解释和可量化的标准,包括数据选择和标注指导。实验表明,THTB使仅用5%的数据训练的模型优于全数据集训练,同时实现了优于仅使用LLM选择的泛化能力。此外,THTB在垂直领域提供有效的标注指导,使仅用2%的数据训练的模型超过了用更大的数据集训练的模型,展示了强大的领域适应潜力。我们的代码、数据集和模型可在https://github.com/DYJG-research/THTB上找到。

🔬 方法详解

问题定义:论文旨在解决监督微调(SFT)中,如何更有效地利用数据,在减少数据量的同时,保持甚至提升模型的泛化能力。现有方法通常依赖LLM自身的知识进行数据选择,导致选择过程缺乏可解释性,并且容易过拟合LLM已有的知识,从而限制了模型在特定领域的泛化能力。

核心思路:论文的核心思路是借鉴认知科学的原理,认为“更难”的数据包含更多信息,更有助于模型学习到泛化能力更强的知识。因此,论文提出了一种基于难度评分的数据选择和标注指导框架,优先选择那些对模型来说更具挑战性的数据。

技术框架:THTB框架主要包含以下几个阶段:1) 数据质量过滤:初步筛选掉低质量的数据。2) 内在难度评分:评估数据本身所包含的认知复杂度,例如指令的长度、涉及的概念数量等。3) 外在难度评分:评估数据对模型来说的难度,例如模型在回答该问题时的置信度、损失值等。4) 数据选择/标注指导:根据难度评分,选择难度较高的数据进行训练,或者指导人工标注人员生成难度更高的数据。

关键创新:THTB的关键创新在于其难度评分机制,它不仅考虑了数据本身的复杂度(内在难度),还考虑了数据对模型来说的挑战性(外在难度)。这种综合的难度评估方法能够更准确地识别出对模型学习最有价值的数据。与现有方法相比,THTB不完全依赖LLM的内部知识,而是通过难度评分提供了一种更可解释、更客观的数据选择标准。

关键设计:内在难度评分可能涉及到指令长度、实体数量、关系复杂度的计算。外在难度评分可能使用模型的交叉熵损失或预测置信度。数据选择策略可以采用Top-K选择,即选择难度评分最高的K个数据。标注指导方面,可以要求标注人员根据模型在某些问题上的错误,生成更具挑战性的类似问题。

🖼️ 关键图片

fig_0

📊 实验亮点

实验结果表明,使用THTB框架,仅用5%的数据训练的模型,其性能可以超过使用全部数据训练的模型。与仅使用LLM进行数据选择的方法相比,THTB能够实现更好的泛化能力。在垂直领域,仅用2%的数据训练的模型,就可以超越使用更大规模数据集训练的模型,充分展示了THTB在领域自适应方面的潜力。

🎯 应用场景

THTB框架可应用于各种需要对大型语言模型进行领域自适应的场景,例如医疗、金融、法律等垂直领域。通过该方法,可以用更少的数据训练出在特定领域表现更优的模型,降低训练成本,并提高模型在实际应用中的可靠性和准确性。此外,THTB还可以用于指导数据标注,提高标注效率和数据质量。

📄 摘要(原文)

Large Language Models (LLMs) excel in general tasks, but adapting them to specialized domains relies on high-quality supervised fine-tuning (SFT) data. Although existing methods can identify subsets of high-quality data and reduce training cost to some extent, their selection process still suffers from over-reliance on LLMs' internal knowledge, weak interpretability, and limited generalization. To address these limitations, we propose THTB (The Harder The Better), a cognitive science-inspired framework for instruction data selection and annotation guidance. THTB prioritizes higher-level cognitive instructions by combining quality filtering with intrinsic and extrinsic hardness scoring, offering interpretable and quantifiable criteria for efficient SFT, both in data selection and annotation guidance. Experiments show that THTB enables models trained on only 5% of the data to outperform full-dataset training, while achieving superior generalization compared with LLM-only selection. In addition, THTB provides effective annotation guidance in vertical domains, enabling a model trained on just 2% of the data to surpass models trained on much larger datasets, demonstrating strong potential for domain adaptation. Our code, datasets, and models are available on https://github.com/DYJG-research/THTB.