Rethinking Supervised Fine-Tuning: Emphasizing Key Answer Tokens for Improved LLM Accuracy
作者: Xiaofeng Shi, Qian Kou, Yuduo Li, Hua Zhou
分类: cs.CL, cs.AI
发布日期: 2025-12-24
💡 一句话要点
SFTKey:通过强化关键答案token优化LLM监督微调的准确性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 监督微调 大型语言模型 思维链 关键答案 两阶段训练
📋 核心要点
- 传统监督微调(SFT)在处理CoT推理时,容易过度关注冗长的推理过程,忽略关键答案token。
- SFTKey通过两阶段训练,首先确保输出格式正确,然后专门微调关键答案部分,提升准确率。
- 实验表明,SFTKey在多个基准测试中,相比传统SFT,平均准确率提升超过5%,并保持格式正确。
📝 摘要(中文)
随着大型语言模型(LLMs)的快速发展,思维链(CoT)成分对于复杂的推理任务变得至关重要。然而,在传统的监督微调(SFT)中,模型可能会不成比例地将更多注意力分配给长度过长的CoT序列。这减少了对更短但至关重要的“关键”部分的关注,即最终答案,其正确性直接决定了任务的成功和评估质量。为了解决这个限制,我们提出了SFTKey,一种两阶段训练方案。在第一阶段,应用传统的SFT以确保正确的输出格式,而在第二阶段,仅对“关键”部分进行微调以提高准确性。跨多个基准和模型系列的广泛实验表明,SFTKey实现了比传统SFT平均超过5%的准确性提升,同时保留了生成正确格式的能力。总的来说,这项研究通过显式平衡CoT学习和对答案相关token的额外优化,推进了LLM微调。
🔬 方法详解
问题定义:论文旨在解决大型语言模型在监督微调过程中,对思维链(CoT)推理过程过度关注,而忽略最终答案(Key)的问题。现有SFT方法的痛点在于,模型会将过多的注意力分配给CoT序列,导致对关键答案token的学习不足,最终影响任务的准确性。
核心思路:论文的核心思路是将SFT过程分解为两个阶段,分别关注输出格式和答案准确性。通过两阶段的训练,模型可以首先学习生成正确的CoT格式,然后在第二阶段专注于优化关键答案token的表示,从而提高最终答案的准确性。
技术框架:SFTKey包含两个主要阶段: 1. 格式SFT阶段:使用传统的SFT方法,对整个CoT序列进行微调,目标是让模型学习生成符合要求的CoT推理过程和答案格式。 2. 关键答案SFT阶段:仅对CoT序列中的关键答案部分进行微调。在这个阶段,CoT序列的其他部分被屏蔽或降低权重,以确保模型将注意力集中在答案token上。
关键创新:SFTKey的关键创新在于将SFT过程解耦为格式学习和答案优化两个阶段,并针对关键答案token进行专门的微调。与传统的SFT方法相比,SFTKey能够更有效地利用训练数据,提高模型对关键信息的敏感度,从而提升最终答案的准确性。
关键设计:在关键答案SFT阶段,可以采用多种技术手段来强化对关键答案token的关注,例如: * Token Masking:屏蔽CoT序列中非答案部分的token,只允许模型关注答案token。 * Loss Weighting:对答案token的损失函数赋予更高的权重,促使模型更加重视答案的预测。 * Attention Manipulation:修改注意力机制,使模型更多地关注答案token,例如使用特殊的注意力mask或引入额外的注意力偏差。
🖼️ 关键图片
📊 实验亮点
实验结果表明,SFTKey在多个基准测试中均优于传统的SFT方法。具体而言,SFTKey在准确率方面平均提升超过5%,并且在某些任务上取得了更大的提升。此外,SFTKey在提升准确率的同时,也能够保持模型生成正确格式的能力,确保CoT推理过程的完整性和可读性。
🎯 应用场景
SFTKey方法可广泛应用于需要高准确率的LLM应用场景,例如问答系统、知识图谱推理、数学问题求解等。通过提升LLM对关键信息的关注度,可以显著提高这些应用场景的性能和可靠性。该方法还有助于降低LLM的幻觉问题,提升生成内容的真实性和可信度。
📄 摘要(原文)
With the rapid advancement of Large Language Models (LLMs), the Chain-of-Thought (CoT) component has become significant for complex reasoning tasks. However, in conventional Supervised Fine-Tuning (SFT), the model could allocate disproportionately more attention to CoT sequences with excessive length. This reduces focus on the much shorter but essential Key portion-the final answer, whose correctness directly determines task success and evaluation quality. To address this limitation, we propose SFTKey, a two-stage training scheme. In the first stage, conventional SFT is applied to ensure proper output format, while in the second stage, only the Key portion is fine-tuned to improve accuracy. Extensive experiments across multiple benchmarks and model families demonstrate that SFTKey achieves an average accuracy improvement exceeding 5\% over conventional SFT, while preserving the ability to generate correct formats. Overall, this study advances LLM fine-tuning by explicitly balancing CoT learning with additional optimization on answer-relevant tokens.