On the Role of Reasoning Patterns in the Generalization Discrepancy of Long Chain-of-Thought Supervised Fine-Tuning

📄 arXiv: 2604.01702 📥 PDF

作者: Zhaoyi Li, Xiangyu Xi, Zhengyu Chen, Wei Wang, Gangwei Jiang, Ranran Shen, Linqi Song, Ying Wei, Defu Lian

分类: cs.CL

发布日期: 2026-04-07


💡 一句话要点

揭示长链思维微调中推理模式对泛化性能的影响,并提出分支过滤方法。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 长链思维 监督微调 泛化性能 推理模式 分支过滤

📋 核心要点

  1. 现有长链思维微调方法缺乏对不同来源CoT轨迹泛化性能影响的深入理解,导致训练损失降低但泛化能力下降的悖论。
  2. 本文通过对比分析不同模型生成的CoT轨迹,揭示了推理模式对泛化性能的关键影响,并提出了过滤分支轨迹的有效方法。
  3. 实验结果表明,通过过滤分支轨迹,可以显著提升模型在推理基准测试上的泛化性能,例如在AIME25和BeyondAIME上分别提升了5.1%和5.5%。

📝 摘要(中文)

在大规模推理模型的构建中,基于长链思维(CoT)轨迹的监督微调(SFT)已成为关键步骤。本文旨在研究来自不同来源的CoT轨迹如何影响模型的泛化性能。通过对比由 exttt{DeepSeek-R1-0528}和 exttt{gpt-oss-120b}两个模型生成的CoT轨迹(问题集相同),我们发现了一个悖论:更低的训练损失并不意味着更好的泛化性能。 exttt{DeepSeek-R1-0528}数据上的SFT实现了显著更低的训练损失,但在推理基准测试中,其泛化性能明显不如在 exttt{gpt-oss-120b}上训练的模型。通过token级别SFT损失和step级别推理行为的多方面分析,我们揭示了推理模式的差异。 exttt{gpt-oss-120b}表现出高度收敛和演绎的轨迹,而 exttt{DeepSeek-R1-0528}倾向于发散和分支繁重的探索模式。因此,使用 exttt{DeepSeek-R1}数据训练的模型继承了低效的探索行为,经常陷入冗余的探索分支中,阻碍了它们获得正确的解决方案。基于此,我们提出了一种简单而有效的补救方法,即过滤掉频繁分支的轨迹,以提高SFT的泛化性能。实验表明,在选定的 exttt{DeepSeek-R1-0528}子集上进行训练,在AIME25上推理性能提高了5.1%,在BeyondAIME上提高了5.5%,在五个基准测试上平均提高了3.6%。

🔬 方法详解

问题定义:论文旨在解决长链思维(CoT)监督微调(SFT)中,不同来源的CoT数据导致模型泛化性能差异的问题。现有方法通常只关注降低训练损失,而忽略了CoT数据本身的推理模式差异,导致模型在训练集上表现良好,但在测试集上泛化能力较差。

核心思路:论文的核心思路是,CoT数据的推理模式(例如,收敛性或发散性)会显著影响模型的泛化性能。具体来说,如果CoT数据包含过多的探索性分支,模型可能会学习到低效的推理策略,从而降低泛化能力。因此,通过过滤掉包含过多分支的CoT数据,可以提高模型的泛化性能。

技术框架:论文的技术框架主要包括以下几个步骤:1) 使用两个不同的模型( exttt{DeepSeek-R1-0528}和 exttt{gpt-oss-120b})生成CoT数据;2) 使用这些CoT数据对模型进行SFT;3) 分析不同CoT数据训练出的模型的泛化性能;4) 分析CoT数据的推理模式(例如,分支数量);5) 提出过滤分支轨迹的方法;6) 使用过滤后的CoT数据重新进行SFT,并评估泛化性能。

关键创新:论文最重要的技术创新点在于,它揭示了CoT数据的推理模式对模型泛化性能的关键影响。以往的研究主要关注CoT数据的质量(例如,正确率),而忽略了推理模式。论文首次提出了通过分析CoT数据的推理模式来提高模型泛化性能的方法。与现有方法相比,该方法更加关注CoT数据本身的特性,而不是仅仅关注模型的训练损失。

关键设计:论文的关键设计在于如何定义和过滤分支轨迹。论文使用每个推理步骤中生成的token数量来衡量分支程度。具体来说,如果一个推理步骤生成的token数量超过某个阈值,则认为该步骤包含一个分支。然后,论文过滤掉包含过多分支的CoT轨迹。论文还探索了不同的阈值和过滤策略,以找到最佳的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,通过过滤掉频繁分支的CoT轨迹,可以在AIME25上将推理性能提高5.1%,在BeyondAIME上提高5.5%,在五个基准测试上平均提高3.6%。这表明,CoT数据的推理模式对模型的泛化性能有显著影响,并且可以通过简单的过滤方法来提高模型的性能。

🎯 应用场景

该研究成果可应用于提升大型语言模型在数学推理、逻辑推理等复杂任务上的性能。通过选择更优的CoT数据或对现有CoT数据进行清洗,可以降低模型训练成本,提高模型泛化能力,从而在教育、金融、科研等领域发挥更大作用。

📄 摘要(原文)

Supervised Fine-Tuning (SFT) on long Chain-of-Thought (CoT) trajectories has become a pivotal phase in building large reasoning models. However, how CoT trajectories from different sources influence the generalization performance of models remains an open question. In this paper, we conduct a comparative study using two sources of verified CoT trajectories generated by two competing models, \texttt{DeepSeek-R1-0528} and \texttt{gpt-oss-120b}, with their problem sets controlled to be identical. Despite their comparable performance, we uncover a striking paradox: lower training loss does not translate to better generalization. SFT on \texttt{DeepSeek-R1-0528} data achieves remarkably lower training loss, yet exhibits significantly worse generalization performance on reasoning benchmarks compared to those trained on \texttt{gpt-oss-120b}. To understand this paradox, we perform a multi-faceted analysis probing token-level SFT loss and step-level reasoning behaviors. Our analysis reveals a difference in reasoning patterns. \texttt{gpt-oss-120b} exhibits highly convergent and deductive trajectories, whereas \texttt{DeepSeek-R1-0528} favors a divergent and branch-heavy exploration pattern. Consequently, models trained with \texttt{DeepSeek-R1} data inherit inefficient exploration behaviors, often getting trapped in redundant exploratory branches that hinder them from reaching correct solutions. Building upon this insight, we propose a simple yet effective remedy of filtering out frequently branching trajectories to improve the generalization of SFT. Experiments show that training on selected \texttt{DeepSeek-R1-0528} subsets surprisingly improves reasoning performance by up to 5.1% on AIME25, 5.5% on BeyondAIME, and on average 3.6% on five benchmarks.