Rethinking Generalization in Reasoning SFT: A Conditional Analysis on Optimization, Data, and Model Capability

📄 arXiv: 2604.06628v1 📥 PDF

作者: Qihan Ren, Peng Wang, Ruikun Cai, Shuai Shao, Dadi Guo, Yuejin Xie, Yafu Li, Quanshi Zhang, Xia Hu, Jing Shao, Dongrui Liu

分类: cs.AI

发布日期: 2026-04-08

备注: Preprint. Under review


💡 一句话要点

重新审视推理SFT中的泛化能力:优化、数据和模型能力的条件分析

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 监督微调 链式思维 跨领域泛化 模型能力 优化动态

📋 核心要点

  1. 现有观点认为SFT侧重记忆,RL侧重泛化,但本文发现推理SFT存在有条件的跨领域泛化能力。
  2. 论文核心在于分析优化动态、训练数据质量和模型能力如何共同影响推理SFT的泛化能力。
  3. 实验表明,充分优化、高质量数据和更强模型能提升跨领域泛化,但安全性可能降低。

📝 摘要(中文)

大型语言模型(LLM)后训练中普遍的观点认为,监督微调(SFT)侧重于记忆,而强化学习(RL)侧重于泛化。本文针对具有长链思维(CoT)监督的推理SFT重新审视了这一观点,发现跨领域泛化并非缺失,而是有条件的,它由优化动态、训练数据和基础模型能力共同塑造。一些已报道的失败案例是欠优化的结果:跨领域性能先下降,然后随着训练的延长而恢复和提高(一种下降-恢复模式),因此短时训练检查点可能会低估泛化能力。数据质量和结构都很重要:低质量的解决方案会广泛损害泛化,而经过验证的长CoT轨迹会产生一致的跨领域收益。模型能力至关重要:更强的模型可以内化可转移的过程模式(例如,回溯),即使是从一个玩具算术游戏中也能学习,而较弱的模型则模仿表面的冗长。然而,这种泛化是不对称的:推理能力提高,而安全性降低,从而将问题从推理SFT是否泛化,转变为在什么条件下以及以什么代价泛化。

🔬 方法详解

问题定义:现有研究对监督微调(SFT)在推理任务中的泛化能力存在争议,一种观点认为SFT主要进行记忆,而强化学习(RL)更擅长泛化。然而,这种观点可能忽略了SFT在特定条件下的泛化潜力,以及影响泛化的关键因素。现有方法未能充分考虑优化过程、训练数据质量和模型能力对SFT泛化能力的综合影响。

核心思路:本文的核心思路是通过条件分析,揭示优化动态、训练数据和模型能力如何共同塑造推理SFT的跨领域泛化能力。作者认为,SFT的泛化能力并非绝对存在或缺失,而是取决于这些因素的相互作用。通过控制这些因素,可以更好地理解和提升SFT的泛化性能。

技术框架:本文采用实验驱动的研究方法,通过控制优化过程(训练时长)、数据质量(CoT轨迹的验证)和模型能力(不同规模的模型),来评估它们对跨领域泛化的影响。具体流程包括: 1. 使用不同质量和结构的CoT数据对模型进行SFT。 2. 监控训练过程中模型在不同领域上的性能变化。 3. 分析模型能力对泛化的影响。 4. 评估推理能力提升的同时,安全性是否会降低。

关键创新:本文最重要的创新在于提出了一个条件分析框架,用于理解和评估推理SFT的泛化能力。该框架强调了优化动态、数据质量和模型能力在SFT泛化中的重要作用,并揭示了SFT泛化的复杂性和局限性。与现有研究相比,本文更全面地考虑了影响SFT泛化的各种因素,并提出了更细致的分析方法。

关键设计:本文的关键设计包括: 1. 使用长链思维(CoT)数据进行监督微调,以提升模型的推理能力。 2. 通过验证CoT轨迹来控制训练数据的质量。 3. 使用不同规模的模型来评估模型能力对泛化的影响。 4. 采用跨领域评估方法来衡量模型的泛化性能。 5. 关注推理能力提升的同时,安全性是否会降低,从而评估SFT的代价。

📊 实验亮点

实验结果表明,充分的训练时间能够使SFT模型在跨领域推理任务中表现出“下降-恢复”的性能模式,即性能先下降后提升。高质量的CoT数据能够持续提升跨领域性能,而低质量数据则会损害泛化能力。更强的模型能够内化可迁移的推理模式,但同时也可能导致安全性下降。例如,在提升推理能力的同时,模型可能更容易生成有害或不准确的内容。

🎯 应用场景

该研究成果可应用于提升大型语言模型在各种推理任务中的性能,例如数学问题求解、逻辑推理和常识推理。通过优化训练过程、提高数据质量和选择合适的模型,可以显著提高LLM的泛化能力,使其能够更好地适应新的领域和任务。此外,该研究也提醒我们关注SFT可能带来的安全性问题,为开发更安全可靠的LLM提供指导。

📄 摘要(原文)

A prevailing narrative in LLM post-training holds that supervised finetuning (SFT) memorizes while reinforcement learning (RL) generalizes. We revisit this claim for reasoning SFT with long chain-of-thought (CoT) supervision and find that cross-domain generalization is not absent but conditional, jointly shaped by optimization dynamics, training data, and base-model capability. Some reported failures are under-optimization artifacts: cross-domain performance first degrades before recovering and improving with extended training (a dip-and-recovery pattern), so shorttraining checkpoints can underestimate generalization. Data quality and structure both matter: low-quality solutions broadly hurt generalization,while verified long-CoT traces yield consistent cross-domain gains. Model capability is essential: stronger models internalize transferable procedural patterns (e.g., backtracking) even from a toy arithmetic game, while weaker ones imitate surface verbosity. This generalization is asymmetric, however: reasoning improves while safety degrades, reframing the question from whether reasoning SFT generalizes to under what conditions and at what cost.