RASFT: Rollout-Adaptive Supervised Fine-Tuning for Reasoning
作者: Yongliang Miao, Fengyuan Liu, Wei Shi, Yanguang Liu, Fei Sun, Na Zou, Mengnan Du
分类: cs.LG, cs.CL
发布日期: 2026-06-05
🔗 代码/项目: GITHUB
💡 一句话要点
提出RASFT以解决推理任务中的过拟合问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 监督微调 推理任务 动态调整 专家监督 自生成轨迹 机器学习 人工智能 模型训练
📋 核心要点
- 现有的监督微调方法在推理任务中容易导致模型过拟合于单一专家示范,限制了模型的推理能力。
- 本文提出的RASFT框架通过动态调整专家监督,增强模型在困难问题上的推理能力,同时允许模型生成自我推理轨迹。
- 实验结果显示,RASFT在多个推理基准上超越了传统的SFT方法和强化学习方法,展现出更优的整体性能。
📝 摘要(中文)
监督微调(SFT)是将大型语言模型适应于推理任务的常用方法,通常通过模仿离线专家示范来实现。然而,推理并非简单的路径模仿,严格遵循单一示范可能导致模型过拟合表面形式,抑制自身推理分布。为此,本文提出了基于回滚自适应的监督微调(RASFT),该框架根据经过验证的在线回滚估计问题级可解性来校准专家监督。RASFT在模型表现不佳时加强专家指导,而在模型表现可靠时放宽严格模仿,结合自生成的正确轨迹。此外,RASFT引入了冻结参考模型与当前策略之间的剪切逆比率,以约束过度的策略漂移。实验结果表明,RASFT在六个数学推理基准和两个代码推理基准上表现优于SFT及其变体,以及代表性的强化学习方法。
🔬 方法详解
问题定义:本文旨在解决现有监督微调方法在推理任务中导致的过拟合问题,尤其是模型在仅依赖单一专家示范时的局限性。现有方法往往忽视了推理任务的复杂性,导致模型无法有效地进行自主推理。
核心思路:RASFT通过引入回滚自适应机制,根据模型在特定问题上的表现动态调整专家监督。具体而言,当模型在某个问题上表现不佳时,增强专家指导;而在模型表现良好时,允许其生成自我推理轨迹,从而避免过度依赖单一示范。
技术框架:RASFT的整体架构包括三个主要模块:问题可解性估计模块、专家监督调整模块和自生成轨迹整合模块。首先,通过在线回滚评估问题的可解性;然后,根据评估结果调整专家监督的强度;最后,将自生成的轨迹与专家示范结合,形成最终的训练信号。
关键创新:RASFT的核心创新在于其动态调整专家监督的能力,能够根据模型的实时表现进行灵活的指导。这一设计与传统的静态监督方法形成鲜明对比,使得模型能够在推理过程中保持更大的灵活性和自主性。
关键设计:在实现上,RASFT引入了剪切逆比率作为损失函数的一部分,以限制当前策略与冻结参考模型之间的过度漂移。此外,模型的训练过程还涉及到对自生成轨迹的有效整合,确保模型能够在保持推理能力的同时,避免过度依赖专家示范。
🖼️ 关键图片
📊 实验亮点
在六个数学推理基准和两个代码推理基准上的实验结果表明,RASFT在整体性能上超越了传统的SFT方法和多种强化学习方法,具体提升幅度达到XX%(具体数据待补充),展示了其在推理任务中的有效性。
🎯 应用场景
该研究的潜在应用领域包括教育、自动化推理系统和智能助手等。通过提升模型在复杂推理任务中的表现,RASFT能够为这些领域提供更为智能和灵活的解决方案,推动人机交互的进一步发展。
📄 摘要(原文)
Supervised fine-tuning (SFT) is a prevailing method for adapting large language models to reasoning tasks by imitating offline expert demonstrations, often treating a single expert trajectory as the target behavior. However, reasoning is not simple path imitation: rigidly following one demonstrated solution may overfit to surface forms and suppress the model's own reasoning distribution. We propose Rollout-Adaptive Supervised Fine-Tuning (RASFT), a policy-aware SFT framework that calibrates expert supervision according to problem-level solvability estimated from verified on-policy rollouts. For each problem, RASFT strengthens expert guidance when the current policy struggles, while relaxing rigid imitation and incorporating correct self-generated trajectories when the model already exhibits reliable reasoning behavior. To preserve useful reasoning priors, RASFT further introduces a clipped inverse ratio between the frozen reference model and the current policy to constrain excessive policy drift. Experiments across multiple models on six mathematical reasoning benchmarks and two code reasoning benchmarks show that RASFT achieves better overall performance than SFT, SFT variants, and representative RL methods. The code is available at https://github.com/zjd1sq/RASFT.