Debunk the Myth of SFT Generalization
作者: Xiaofeng Lin, Hejian Sang, Zhipeng Wang, Xuezhou Zhang
分类: cs.LG, cs.AI
发布日期: 2025-09-30
🔗 代码/项目: GITHUB
💡 一句话要点
通过提示多样性和CoT,SFT在决策任务中可实现与RL相当的泛化能力
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 监督微调 泛化能力 提示工程 思维链 决策任务
📋 核心要点
- 现有观点认为SFT泛化能力弱于RL,主要原因是SFT容易记忆训练数据,缺乏对新任务的适应性。
- 本文提出通过引入提示多样性和思维链(CoT)监督,打破SFT的冻结提示伪影,提升其泛化能力。
- 实验结果表明,结合提示多样性和CoT的SFT在决策任务中可达到与RL相当甚至更优的泛化性能。
📝 摘要(中文)
一个普遍的观点认为,监督微调(SFT)记忆训练数据并且无法泛化,而强化学习(RL)则能获得更广泛的鲁棒性。本文通过在Sokoban和General Points两个决策基准上进行系统评估,对这一观点进行了重新审视,并得出了不同的结论。研究表明,SFT感知到的失败很大程度上源于冻结提示伪影:当在固定的指令模板上训练时,SFT模型会坚持训练语义,而不是适应新的语义。在训练期间引入提示多样性打破了这种捷径,并在不损害分布内性能的情况下,对未见过的指令变体产生了强大的泛化能力。除了指令转移之外,本文还探讨了SFT是否可以推广到更困难的任务。在这里,思维链(CoT)监督提供了一个算法支架,显著提高了对更困难情况的转移,例如具有额外箱子的大型Sokoban网格,以及具有分布外值或增加组合复杂性的五张牌组合的算术。最后,将提示多样性与CoT相结合,实现了两全其美:在指令变体和难度变体设置中实现了强大的泛化,在基准测试中匹配或超过了RL基线,同时保留了SFT的简单性和稳定性。这些发现挑战了SFT本质上不如RL的说法,并支持以数据为中心的观点:通过适当策划的演示,普通的SFT可以像RL一样强大地泛化。
🔬 方法详解
问题定义:现有研究认为,监督微调(SFT)在决策任务中泛化能力不足,容易过拟合训练数据,无法很好地适应新的指令或更困难的任务。这种观点认为,SFT模型倾向于记忆训练数据的特定模式,而不是学习通用的解决问题的策略。
核心思路:本文的核心思路是,SFT的泛化能力不足并非其内在缺陷,而是由于训练数据和训练方式的局限性造成的。通过引入提示多样性,打破模型对固定指令模板的依赖,使其能够更好地适应新的指令变体。同时,利用思维链(CoT)监督,引导模型学习更通用的算法策略,从而提升其在更困难任务上的泛化能力。
技术框架:本文采用标准的监督微调框架,主要改进在于训练数据的构建方式。具体来说,包括以下几个关键模块:1) 提示多样性模块:在训练过程中,使用不同的指令模板来描述相同的任务,从而增加训练数据的多样性。2) 思维链(CoT)监督模块:在训练数据中,不仅包含任务的输入和输出,还包含解决问题的中间步骤,即思维链。通过监督模型生成正确的思维链,引导其学习更通用的算法策略。3) 评估模块:在不同的任务设置下,评估模型的泛化能力,包括对新的指令变体的适应能力,以及在更困难任务上的表现。
关键创新:本文最重要的技术创新点在于,通过提示多样性和思维链(CoT)监督,打破了SFT模型对训练数据的过度依赖,使其能够学习更通用的解决问题的策略。与现有方法相比,本文的方法更加注重训练数据的质量和多样性,而不是仅仅依赖于模型的复杂性。
关键设计:在提示多样性方面,本文采用了多种不同的指令模板,涵盖了不同的表达方式和语义。在思维链(CoT)监督方面,本文采用了人工标注的方式,为每个训练样本生成了详细的思维链。此外,本文还采用了标准的交叉熵损失函数来训练模型,并使用Adam优化器进行优化。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在Sokoban和General Points两个决策基准上,结合提示多样性和CoT的SFT模型在指令变体和难度变体设置中均取得了显著的泛化性能提升,匹配甚至超过了RL基线。例如,在Sokoban任务中,该方法在更大的网格和更多箱子的设置下,仍然能够保持较高的解决率。
🎯 应用场景
该研究成果可应用于各种需要决策能力的AI系统,例如游戏AI、机器人控制、自动驾驶等。通过提升SFT模型的泛化能力,可以降低对大量标注数据的依赖,提高AI系统的鲁棒性和适应性,从而加速AI技术在实际场景中的应用。
📄 摘要(原文)
A prevailing view holds that supervised fine-tuning (SFT) memorizes training data and fails to generalize, whereas reinforcement learning (RL) attains broader robustness. We revisit this claim through a systematic evaluation on two decision-making benchmarks, Sokoban and General Points, and arrive at a different conclusion. We show that much of SFT's perceived failure stems from frozen-prompt artifacts: when trained on fixed instruction templates, SFT models cling to training semantics rather than adapting to new ones. Introducing prompt diversity during training breaks this shortcut and yields strong generalization to unseen instruction variants without harming in-distribution performance. Beyond instruction shifts, we ask whether SFT can generalize to strictly harder tasks. Here, chain-of-thought (CoT) supervision provides an algorithmic scaffold that markedly improves transfer to more difficult regimes, such as larger Sokoban grids with additional boxes and arithmetic with out-of-distribution values or five-card compositions that increase combinatorial complexity. Finally, combining prompt diversity with CoT achieves the best of both worlds: robust generalization across both instruction-variant and difficulty-variant settings, matching or surpassing RL baselines on our benchmarks while retaining SFT's simplicity and stability. These findings challenge the narrative that SFT is inherently inferior to RL and support a data-centric perspective: with appropriately curated demonstrations, vanilla SFT can generalize as strongly as RL. Code reproducing the results in the paper can be found at: https://github.com/XiaofengLin7/debunking-sft-generalization.