Rethinking Supervised Fine-Tuning: Emphasizing Key Answer Tokens for Improved LLM Accuracy

作者: Xiaofeng Shi, Qian Kou, Yuduo Li, Hua Zhou

分类: cs.CL, cs.AI

发布日期: 2025-12-24

💡 一句话要点

SFTKey：通过强化关键答案token优化LLM监督微调的准确性

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 监督微调 大型语言模型 思维链 关键答案 两阶段训练

📋 核心要点

传统监督微调（SFT）在处理CoT推理时，容易过度关注冗长的推理过程，忽略关键答案token。
SFTKey通过两阶段训练，首先确保输出格式正确，然后专门微调关键答案部分，提升准确率。
实验表明，SFTKey在多个基准测试中，相比传统SFT，平均准确率提升超过5%，并保持格式正确。

📝 摘要（中文）

随着大型语言模型（LLMs）的快速发展，思维链（CoT）成分对于复杂的推理任务变得至关重要。然而，在传统的监督微调（SFT）中，模型可能会不成比例地将更多注意力分配给长度过长的CoT序列。这减少了对更短但至关重要的“关键”部分的关注，即最终答案，其正确性直接决定了任务的成功和评估质量。为了解决这个限制，我们提出了SFTKey，一种两阶段训练方案。在第一阶段，应用传统的SFT以确保正确的输出格式，而在第二阶段，仅对“关键”部分进行微调以提高准确性。跨多个基准和模型系列的广泛实验表明，SFTKey实现了比传统SFT平均超过5%的准确性提升，同时保留了生成正确格式的能力。总的来说，这项研究通过显式平衡CoT学习和对答案相关token的额外优化，推进了LLM微调。

🔬 方法详解

问题定义：论文旨在解决大型语言模型在监督微调过程中，对思维链（CoT）推理过程过度关注，而忽略最终答案（Key）的问题。现有SFT方法的痛点在于，模型会将过多的注意力分配给CoT序列，导致对关键答案token的学习不足，最终影响任务的准确性。

核心思路：论文的核心思路是将SFT过程分解为两个阶段，分别关注输出格式和答案准确性。通过两阶段的训练，模型可以首先学习生成正确的CoT格式，然后在第二阶段专注于优化关键答案token的表示，从而提高最终答案的准确性。

技术框架：SFTKey包含两个主要阶段： 1. 格式SFT阶段：使用传统的SFT方法，对整个CoT序列进行微调，目标是让模型学习生成符合要求的CoT推理过程和答案格式。 2. 关键答案SFT阶段：仅对CoT序列中的关键答案部分进行微调。在这个阶段，CoT序列的其他部分被屏蔽或降低权重，以确保模型将注意力集中在答案token上。

关键创新：SFTKey的关键创新在于将SFT过程解耦为格式学习和答案优化两个阶段，并针对关键答案token进行专门的微调。与传统的SFT方法相比，SFTKey能够更有效地利用训练数据，提高模型对关键信息的敏感度，从而提升最终答案的准确性。

关键设计：在关键答案SFT阶段，可以采用多种技术手段来强化对关键答案token的关注，例如： * Token Masking：屏蔽CoT序列中非答案部分的token，只允许模型关注答案token。 * Loss Weighting：对答案token的损失函数赋予更高的权重，促使模型更加重视答案的预测。 * Attention Manipulation：修改注意力机制，使模型更多地关注答案token，例如使用特殊的注意力mask或引入额外的注意力偏差。

🖼️ 关键图片

📊 实验亮点

实验结果表明，SFTKey在多个基准测试中均优于传统的SFT方法。具体而言，SFTKey在准确率方面平均提升超过5%，并且在某些任务上取得了更大的提升。此外，SFTKey在提升准确率的同时，也能够保持模型生成正确格式的能力，确保CoT推理过程的完整性和可读性。

🎯 应用场景

SFTKey方法可广泛应用于需要高准确率的LLM应用场景，例如问答系统、知识图谱推理、数学问题求解等。通过提升LLM对关键信息的关注度，可以显著提高这些应用场景的性能和可靠性。该方法还有助于降低LLM的幻觉问题，提升生成内容的真实性和可信度。

📄 摘要（原文）

With the rapid advancement of Large Language Models (LLMs), the Chain-of-Thought (CoT) component has become significant for complex reasoning tasks. However, in conventional Supervised Fine-Tuning (SFT), the model could allocate disproportionately more attention to CoT sequences with excessive length. This reduces focus on the much shorter but essential Key portion-the final answer, whose correctness directly determines task success and evaluation quality. To address this limitation, we propose SFTKey, a two-stage training scheme. In the first stage, conventional SFT is applied to ensure proper output format, while in the second stage, only the Key portion is fine-tuned to improve accuracy. Extensive experiments across multiple benchmarks and model families demonstrate that SFTKey achieves an average accuracy improvement exceeding 5\% over conventional SFT, while preserving the ability to generate correct formats. Overall, this study advances LLM fine-tuning by explicitly balancing CoT learning with additional optimization on answer-relevant tokens.

Rethinking Supervised Fine-Tuning: Emphasizing Key Answer Tokens for Improved LLM Accuracy

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理