Rethinking Generalization in Reasoning SFT: A Conditional Analysis on Optimization, Data, and Model Capability

作者: Qihan Ren, Peng Wang, Ruikun Cai, Shuai Shao, Dadi Guo, Yuejin Xie, Yafu Li, Quanshi Zhang, Xia Hu, Jing Shao, Dongrui Liu

分类: cs.AI

发布日期: 2026-04-08

备注: Preprint. Under review

💡 一句话要点

重新审视推理SFT中的泛化能力：优化、数据和模型能力的条件分析

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 监督微调 链式思维 跨领域泛化 模型能力 优化动态

📋 核心要点

现有观点认为SFT侧重记忆，RL侧重泛化，但本文发现推理SFT存在有条件的跨领域泛化能力。
论文核心在于分析优化动态、训练数据质量和模型能力如何共同影响推理SFT的泛化能力。
实验表明，充分优化、高质量数据和更强模型能提升跨领域泛化，但安全性可能降低。

📝 摘要（中文）

大型语言模型（LLM）后训练中普遍的观点认为，监督微调（SFT）侧重于记忆，而强化学习（RL）侧重于泛化。本文针对具有长链思维（CoT）监督的推理SFT重新审视了这一观点，发现跨领域泛化并非缺失，而是有条件的，它由优化动态、训练数据和基础模型能力共同塑造。一些已报道的失败案例是欠优化的结果：跨领域性能先下降，然后随着训练的延长而恢复和提高（一种下降-恢复模式），因此短时训练检查点可能会低估泛化能力。数据质量和结构都很重要：低质量的解决方案会广泛损害泛化，而经过验证的长CoT轨迹会产生一致的跨领域收益。模型能力至关重要：更强的模型可以内化可转移的过程模式（例如，回溯），即使是从一个玩具算术游戏中也能学习，而较弱的模型则模仿表面的冗长。然而，这种泛化是不对称的：推理能力提高，而安全性降低，从而将问题从推理SFT是否泛化，转变为在什么条件下以及以什么代价泛化。

🔬 方法详解

问题定义：现有研究对监督微调（SFT）在推理任务中的泛化能力存在争议，一种观点认为SFT主要进行记忆，而强化学习（RL）更擅长泛化。然而，这种观点可能忽略了SFT在特定条件下的泛化潜力，以及影响泛化的关键因素。现有方法未能充分考虑优化过程、训练数据质量和模型能力对SFT泛化能力的综合影响。

核心思路：本文的核心思路是通过条件分析，揭示优化动态、训练数据和模型能力如何共同塑造推理SFT的跨领域泛化能力。作者认为，SFT的泛化能力并非绝对存在或缺失，而是取决于这些因素的相互作用。通过控制这些因素，可以更好地理解和提升SFT的泛化性能。

技术框架：本文采用实验驱动的研究方法，通过控制优化过程（训练时长）、数据质量（CoT轨迹的验证）和模型能力（不同规模的模型），来评估它们对跨领域泛化的影响。具体流程包括： 1. 使用不同质量和结构的CoT数据对模型进行SFT。 2. 监控训练过程中模型在不同领域上的性能变化。 3. 分析模型能力对泛化的影响。 4. 评估推理能力提升的同时，安全性是否会降低。

关键创新：本文最重要的创新在于提出了一个条件分析框架，用于理解和评估推理SFT的泛化能力。该框架强调了优化动态、数据质量和模型能力在SFT泛化中的重要作用，并揭示了SFT泛化的复杂性和局限性。与现有研究相比，本文更全面地考虑了影响SFT泛化的各种因素，并提出了更细致的分析方法。

关键设计：本文的关键设计包括： 1. 使用长链思维（CoT）数据进行监督微调，以提升模型的推理能力。 2. 通过验证CoT轨迹来控制训练数据的质量。 3. 使用不同规模的模型来评估模型能力对泛化的影响。 4. 采用跨领域评估方法来衡量模型的泛化性能。 5. 关注推理能力提升的同时，安全性是否会降低，从而评估SFT的代价。

📊 实验亮点

实验结果表明，充分的训练时间能够使SFT模型在跨领域推理任务中表现出“下降-恢复”的性能模式，即性能先下降后提升。高质量的CoT数据能够持续提升跨领域性能，而低质量数据则会损害泛化能力。更强的模型能够内化可迁移的推理模式，但同时也可能导致安全性下降。例如，在提升推理能力的同时，模型可能更容易生成有害或不准确的内容。

🎯 应用场景

该研究成果可应用于提升大型语言模型在各种推理任务中的性能，例如数学问题求解、逻辑推理和常识推理。通过优化训练过程、提高数据质量和选择合适的模型，可以显著提高LLM的泛化能力，使其能够更好地适应新的领域和任务。此外，该研究也提醒我们关注SFT可能带来的安全性问题，为开发更安全可靠的LLM提供指导。

📄 摘要（原文）

A prevailing narrative in LLM post-training holds that supervised finetuning (SFT) memorizes while reinforcement learning (RL) generalizes. We revisit this claim for reasoning SFT with long chain-of-thought (CoT) supervision and find that cross-domain generalization is not absent but conditional, jointly shaped by optimization dynamics, training data, and base-model capability. Some reported failures are under-optimization artifacts: cross-domain performance first degrades before recovering and improving with extended training (a dip-and-recovery pattern), so shorttraining checkpoints can underestimate generalization. Data quality and structure both matter: low-quality solutions broadly hurt generalization,while verified long-CoT traces yield consistent cross-domain gains. Model capability is essential: stronger models internalize transferable procedural patterns (e.g., backtracking) even from a toy arithmetic game, while weaker ones imitate surface verbosity. This generalization is asymmetric, however: reasoning improves while safety degrades, reframing the question from whether reasoning SFT generalizes to under what conditions and at what cost.

Rethinking Generalization in Reasoning SFT: A Conditional Analysis on Optimization, Data, and Model Capability

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理