Rethinking Supervised Fine-Tuning: Emphasizing Key Answer Tokens for Improved LLM Accuracy

📄 arXiv: 2512.21017v1 📥 PDF

作者: Xiaofeng Shi, Qian Kou, Yuduo Li, Hua Zhou

分类: cs.CL, cs.AI

发布日期: 2025-12-24


💡 一句话要点

SFTKey:通过强化关键答案token,提升LLM监督微调的准确率

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 监督微调 大型语言模型 思维链 关键答案 两阶段训练

📋 核心要点

  1. 传统监督微调(SFT)在处理CoT推理时,容易对过长的推理过程分配过多注意力,忽略了最终答案的重要性。
  2. SFTKey通过两阶段训练,首先进行标准SFT以保证输出格式,然后专注于微调答案部分,提升模型对关键信息的敏感度。
  3. 实验结果表明,SFTKey在多个基准测试中,相比传统SFT,平均准确率提升超过5%,同时保持了生成正确格式的能力。

📝 摘要(中文)

随着大型语言模型(LLMs)的快速发展,思维链(CoT)成分在复杂的推理任务中变得至关重要。然而,在传统的监督微调(SFT)中,模型可能会过度关注长度过长的CoT序列,从而减少对关键部分的关注——即最终答案,其正确性直接决定了任务的成功和评估质量。为了解决这个限制,我们提出了SFTKey,一种两阶段训练方案。在第一阶段,应用传统的SFT以确保正确的输出格式,而在第二阶段,仅对关键部分进行微调以提高准确性。在多个基准和模型系列上的大量实验表明,SFTKey实现了比传统SFT平均超过5%的准确率提升,同时保留了生成正确格式的能力。总的来说,这项研究通过显式地平衡CoT学习和对答案相关token的额外优化,推进了LLM微调。

🔬 方法详解

问题定义:论文旨在解决大型语言模型在监督微调(SFT)过程中,对思维链(CoT)推理过程中冗余信息过度关注,而忽略最终答案(Key)的问题。现有SFT方法的痛点在于,模型难以区分CoT中不同部分的重要性,导致最终答案的准确率提升受限。

核心思路:论文的核心思路是,将SFT过程分为两个阶段,第一阶段进行标准的SFT,确保模型能够生成正确的CoT格式;第二阶段,只对答案部分(Key)进行微调,从而强化模型对关键信息的关注,提高答案的准确率。这样设计的原因是,CoT的格式正确性可以通过第一阶段保证,而答案的准确性则需要更精细的优化。

技术框架:SFTKey的整体框架是一个两阶段的训练流程。第一阶段是标准SFT,使用全部的CoT数据进行训练,目标是让模型学会生成符合要求的CoT格式。第二阶段是Key-focused SFT,只使用答案部分的数据进行训练,目标是提高模型对答案的预测准确率。两个阶段可以采用相同的模型结构和优化器,但训练数据和损失函数有所不同。

关键创新:SFTKey最重要的创新点在于,它将SFT过程解耦为格式学习和答案优化两个阶段,并针对答案部分进行专门的微调。这与传统的SFT方法不同,后者将CoT作为一个整体进行训练,难以区分不同部分的重要性。SFTKey通过这种解耦的方式,能够更有效地利用训练数据,提高答案的准确率。

关键设计:在第二阶段的Key-focused SFT中,关键的设计在于如何确定答案部分。论文中可能使用了人工标注或者自动抽取的方法来确定答案的起始和结束位置。此外,损失函数的设计也至关重要,可能采用了只计算答案部分损失的策略,或者对答案部分的损失赋予更高的权重。具体的参数设置,如学习率、batch size等,可能需要根据不同的模型和数据集进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SFTKey在多个基准测试和模型系列上进行了验证,实验结果表明,SFTKey相比传统的SFT方法,平均准确率提升超过5%。这一提升在不同的数据集和模型上都具有一致性,表明SFTKey具有较强的泛化能力。此外,SFTKey在提高准确率的同时,也保持了生成正确格式的能力,避免了因过度优化答案而导致格式错误的风险。

🎯 应用场景

SFTKey方法可广泛应用于需要高准确率的LLM应用场景,例如问答系统、知识图谱推理、代码生成等。通过提升模型对关键信息的关注,可以显著提高这些应用场景的性能和用户体验。未来,该方法可以进一步扩展到其他类型的任务和模型,例如多模态任务和更复杂的推理任务。

📄 摘要(原文)

With the rapid advancement of Large Language Models (LLMs), the Chain-of-Thought (CoT) component has become significant for complex reasoning tasks. However, in conventional Supervised Fine-Tuning (SFT), the model could allocate disproportionately more attention to CoT sequences with excessive length. This reduces focus on the much shorter but essential Key portion-the final answer, whose correctness directly determines task success and evaluation quality. To address this limitation, we propose SFTKey, a two-stage training scheme. In the first stage, conventional SFT is applied to ensure proper output format, while in the second stage, only the Key portion is fine-tuned to improve accuracy. Extensive experiments across multiple benchmarks and model families demonstrate that SFTKey achieves an average accuracy improvement exceeding 5\% over conventional SFT, while preserving the ability to generate correct formats. Overall, this study advances LLM fine-tuning by explicitly balancing CoT learning with additional optimization on answer-relevant tokens.