On the Role of Reasoning Patterns in the Generalization Discrepancy of Long Chain-of-Thought Supervised Fine-Tuning

作者: Zhaoyi Li, Xiangyu Xi, Zhengyu Chen, Wei Wang, Gangwei Jiang, Ranran Shen, Linqi Song, Ying Wei, Defu Lian

分类: cs.CL

发布日期: 2026-04-07

💡 一句话要点

揭示长链思维微调中推理模式对泛化性能的影响，并提出分支过滤方法。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 长链思维 监督微调 泛化性能 推理模式 分支过滤

📋 核心要点

现有长链思维微调方法缺乏对不同来源CoT轨迹泛化性能影响的深入理解，导致训练损失降低但泛化能力下降的悖论。
本文通过对比分析不同模型生成的CoT轨迹，揭示了推理模式对泛化性能的关键影响，并提出了过滤分支轨迹的有效方法。
实验结果表明，通过过滤分支轨迹，可以显著提升模型在推理基准测试上的泛化性能，例如在AIME25和BeyondAIME上分别提升了5.1%和5.5%。

📝 摘要（中文）

在大规模推理模型的构建中，基于长链思维(CoT)轨迹的监督微调(SFT)已成为关键步骤。本文旨在研究来自不同来源的CoT轨迹如何影响模型的泛化性能。通过对比由 exttt{DeepSeek-R1-0528}和 exttt{gpt-oss-120b}两个模型生成的CoT轨迹（问题集相同），我们发现了一个悖论：更低的训练损失并不意味着更好的泛化性能。 exttt{DeepSeek-R1-0528}数据上的SFT实现了显著更低的训练损失，但在推理基准测试中，其泛化性能明显不如在 exttt{gpt-oss-120b}上训练的模型。通过token级别SFT损失和step级别推理行为的多方面分析，我们揭示了推理模式的差异。 exttt{gpt-oss-120b}表现出高度收敛和演绎的轨迹，而 exttt{DeepSeek-R1-0528}倾向于发散和分支繁重的探索模式。因此，使用 exttt{DeepSeek-R1}数据训练的模型继承了低效的探索行为，经常陷入冗余的探索分支中，阻碍了它们获得正确的解决方案。基于此，我们提出了一种简单而有效的补救方法，即过滤掉频繁分支的轨迹，以提高SFT的泛化性能。实验表明，在选定的 exttt{DeepSeek-R1-0528}子集上进行训练，在AIME25上推理性能提高了5.1%，在BeyondAIME上提高了5.5%，在五个基准测试上平均提高了3.6%。

🔬 方法详解

问题定义：论文旨在解决长链思维（CoT）监督微调（SFT）中，不同来源的CoT数据导致模型泛化性能差异的问题。现有方法通常只关注降低训练损失，而忽略了CoT数据本身的推理模式差异，导致模型在训练集上表现良好，但在测试集上泛化能力较差。

核心思路：论文的核心思路是，CoT数据的推理模式（例如，收敛性或发散性）会显著影响模型的泛化性能。具体来说，如果CoT数据包含过多的探索性分支，模型可能会学习到低效的推理策略，从而降低泛化能力。因此，通过过滤掉包含过多分支的CoT数据，可以提高模型的泛化性能。

技术框架：论文的技术框架主要包括以下几个步骤：1) 使用两个不同的模型（ exttt{DeepSeek-R1-0528}和 exttt{gpt-oss-120b}）生成CoT数据；2) 使用这些CoT数据对模型进行SFT；3) 分析不同CoT数据训练出的模型的泛化性能；4) 分析CoT数据的推理模式（例如，分支数量）；5) 提出过滤分支轨迹的方法；6) 使用过滤后的CoT数据重新进行SFT，并评估泛化性能。

关键创新：论文最重要的技术创新点在于，它揭示了CoT数据的推理模式对模型泛化性能的关键影响。以往的研究主要关注CoT数据的质量（例如，正确率），而忽略了推理模式。论文首次提出了通过分析CoT数据的推理模式来提高模型泛化性能的方法。与现有方法相比，该方法更加关注CoT数据本身的特性，而不是仅仅关注模型的训练损失。

关键设计：论文的关键设计在于如何定义和过滤分支轨迹。论文使用每个推理步骤中生成的token数量来衡量分支程度。具体来说，如果一个推理步骤生成的token数量超过某个阈值，则认为该步骤包含一个分支。然后，论文过滤掉包含过多分支的CoT轨迹。论文还探索了不同的阈值和过滤策略，以找到最佳的性能。

🖼️ 关键图片

📊 实验亮点

实验结果表明，通过过滤掉频繁分支的CoT轨迹，可以在AIME25上将推理性能提高5.1%，在BeyondAIME上提高5.5%，在五个基准测试上平均提高3.6%。这表明，CoT数据的推理模式对模型的泛化性能有显著影响，并且可以通过简单的过滤方法来提高模型的性能。

🎯 应用场景

该研究成果可应用于提升大型语言模型在数学推理、逻辑推理等复杂任务上的性能。通过选择更优的CoT数据或对现有CoT数据进行清洗，可以降低模型训练成本，提高模型泛化能力，从而在教育、金融、科研等领域发挥更大作用。

📄 摘要（原文）

Supervised Fine-Tuning (SFT) on long Chain-of-Thought (CoT) trajectories has become a pivotal phase in building large reasoning models. However, how CoT trajectories from different sources influence the generalization performance of models remains an open question. In this paper, we conduct a comparative study using two sources of verified CoT trajectories generated by two competing models, \texttt{DeepSeek-R1-0528} and \texttt{gpt-oss-120b}, with their problem sets controlled to be identical. Despite their comparable performance, we uncover a striking paradox: lower training loss does not translate to better generalization. SFT on \texttt{DeepSeek-R1-0528} data achieves remarkably lower training loss, yet exhibits significantly worse generalization performance on reasoning benchmarks compared to those trained on \texttt{gpt-oss-120b}. To understand this paradox, we perform a multi-faceted analysis probing token-level SFT loss and step-level reasoning behaviors. Our analysis reveals a difference in reasoning patterns. \texttt{gpt-oss-120b} exhibits highly convergent and deductive trajectories, whereas \texttt{DeepSeek-R1-0528} favors a divergent and branch-heavy exploration pattern. Consequently, models trained with \texttt{DeepSeek-R1} data inherit inefficient exploration behaviors, often getting trapped in redundant exploratory branches that hinder them from reaching correct solutions. Building upon this insight, we propose a simple yet effective remedy of filtering out frequently branching trajectories to improve the generalization of SFT. Experiments show that training on selected \texttt{DeepSeek-R1-0528} subsets surprisingly improves reasoning performance by up to 5.1% on AIME25, 5.5% on BeyondAIME, and on average 3.6% on five benchmarks.

On the Role of Reasoning Patterns in the Generalization Discrepancy of Long Chain-of-Thought Supervised Fine-Tuning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理