Enhancing Large Language Model Reasoning via Selective Critical Token Fine-Tuning

📄 arXiv: 2510.10974v1 📥 PDF

作者: Zhiwen Ruan, Yixia Li, He Zhu, Yun Chen, Peng Li, Yang Liu, Guanhua Chen

分类: cs.CL

发布日期: 2025-10-13


💡 一句话要点

提出关键Token微调(CFT)方法,提升大语言模型在数学推理任务中的性能和泛化能力。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 监督微调 关键Token微调 数学推理 反事实扰动

📋 核心要点

  1. 现有SFT方法在微调LLM时,对所有token进行统一惩罚,忽略了关键token对推理正确性的决定性作用,导致泛化能力下降。
  2. 论文提出关键Token微调(CFT)方法,通过反事实扰动识别关键token,仅更新这些token的权重,从而提升推理性能。
  3. 实验结果表明,CFT在多个数学推理基准上优于标准SFT,并且能够提升采样多样性,为强化学习提供更好的初始化。

📝 摘要(中文)

大型语言模型(LLMs)主要依赖于监督式微调(SFT)作为将预训练模型适配到特定领域任务(如数学推理)的关键方法。然而,标准的SFT统一惩罚所有token,忽略了只有一小部分关键token决定了推理的正确性。这种统一监督通常会导致输出多样性降低和泛化能力受限。我们提出了关键Token微调(CFT),这是一种简单而有效的方法,仅更新通过反事实扰动识别为功能上不可或缺的token。通过将梯度信号集中在这些决定性的推理步骤上,同时保持非关键token的多样性,CFT可以增强生成和多样性。在Qwen、OLMo和LLaMA三个系列的五个模型以及十一个数学推理基准上的大量实验表明,CFT尽管只对不到12%的token进行微调,但始终优于标准SFT。此外,CFT通过改进的采样多样性实现了测试时缩放,并为强化学习提供了更强的初始化,在后续训练阶段保持了性能增益,同时保持了更高的熵以实现更好的探索。这些结果表明,CFT是一个实用且通用的框架,可用于高效且稳健的LLM微调。

🔬 方法详解

问题定义:现有的大语言模型微调方法,如标准监督微调(SFT),在训练过程中平等地对待所有token,而忽略了在推理过程中只有少数关键token对最终结果起决定性作用。这种均匀的训练方式导致模型学习效率低下,泛化能力受限,并且容易过拟合到训练数据,降低了输出的多样性。

核心思路:论文的核心思路是只对那些在推理过程中起关键作用的token进行微调,即“关键Token微调”(CFT)。通过识别这些关键token,并集中优化它们的权重,可以在提高模型推理准确性的同时,保持非关键token的多样性,从而提升模型的泛化能力。

技术框架:CFT方法主要包含两个步骤:1) 关键token识别:使用反事实扰动方法,通过改变每个token的值,观察模型输出的变化,从而判断该token是否为关键token。具体来说,如果改变某个token导致模型输出结果发生显著变化,则认为该token是关键token。2) 选择性微调:在微调过程中,只更新关键token的权重,而保持非关键token的权重不变。这样可以集中优化关键token,同时避免过度拟合到训练数据。

关键创新:CFT方法的关键创新在于它能够自动识别并选择性地微调关键token。与传统的SFT方法相比,CFT方法更加高效,因为它只关注那些对推理结果影响最大的token。此外,CFT方法还可以提高模型输出的多样性,因为它保留了非关键token的原始信息。

关键设计:在关键token识别阶段,论文使用了反事实扰动方法。具体来说,对于每个token,论文将其替换为一个随机token,并观察模型输出的变化。如果模型输出的变化超过一个预定义的阈值,则认为该token是关键token。在微调阶段,论文使用了标准的交叉熵损失函数,但只计算关键token的损失。此外,论文还使用了梯度裁剪技术,以避免梯度爆炸问题。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,CFT方法在多个数学推理基准上显著优于标准SFT方法。例如,在某些基准上,CFT方法可以将模型的准确率提高10%以上。此外,CFT方法还能够提升模型输出的多样性,并为强化学习提供更强的初始化。值得注意的是,CFT方法只对不到12%的token进行微调,但仍然能够取得如此显著的性能提升,这表明该方法具有很高的效率。

🎯 应用场景

该研究成果可广泛应用于需要精确推理和泛化能力的领域,例如数学问题求解、代码生成、知识图谱推理等。通过选择性地微调关键token,可以显著提升大语言模型在这些任务上的性能,并降低计算成本。此外,该方法还可以作为强化学习的有效初始化手段,加速模型训练并提升探索效率。

📄 摘要(原文)

Large language models (LLMs) primarily rely on supervised fine-tuning (SFT) as a key method to adapt pre-trained models to domain-specific tasks such as mathematical reasoning. However, standard SFT uniformly penalizes all tokens, neglecting that only a small subset of critical tokens determines reasoning correctness. This uniform supervision often causes reduced output diversity and limited generalization. We propose Critical Token Fine-tuning (CFT), a simple yet effective approach that updates only tokens identified as functionally indispensable via counterfactual perturbations. By focusing gradient signals on these decisive reasoning steps while preserving the diversity of non-critical tokens, CFT can enhance both generation and diversity. Extensive experiments on five models across three families (Qwen, OLMo, LLaMA) and eleven mathematical reasoning benchmarks show that CFT, despite fine-tuning on less than 12% of tokens, consistently outperforms standard SFT. Moreover, CFT enables test-time scaling through improved sampling diversity and provides a stronger initialization for reinforcement learning, sustaining performance gains in later training stages while maintaining higher entropy for better exploration. These results highlight CFT as a practical and general framework for efficient and robust LLM fine-tuning.