Post-Training is About States, Not Tokens: A State Distribution View of SFT, RL, and On-Policy Distillation

📄 arXiv: 2605.22731v1 📥 PDF

作者: Dong Nie

分类: cs.LG, cs.AI

发布日期: 2026-05-21


💡 一句话要点

基于状态分布视角分析SFT、RL和On-Policy蒸馏的后训练方法

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 后训练 状态分布 监督微调 强化学习 On-Policy蒸馏 知识保留 大型语言模型

📋 核心要点

  1. 现有后训练方法主要关注损失函数优化,忽略了训练数据状态分布的影响,导致性能提升不稳定。
  2. 论文将后训练过程视为状态分布的塑造,强调训练状态的来源和局部性对模型性能的关键作用。
  3. 实验表明,适当的状态分布选择能显著提升模型在GSM8K等任务上的性能,并有效避免遗忘。

📝 摘要(中文)

大型语言模型后训练方法,如监督微调(SFT)、强化学习(RL)和蒸馏,通常通过其损失函数进行分析:最大似然、策略梯度、前向KL散度、反向KL散度或相关的目标级别变体。本文研究了一个互补因素:应用监督的状态分布。对于自回归策略,状态是提示加上生成的文本前缀。SFT在固定数据集状态上训练,而RL和On-Policy蒸馏(OPD)在当前学习器诱导的状态上训练。我们将后训练形式化为状态分布塑造,并使用Qwen3-0.6B-Base在GSM8K上进行受控的小规模研究,并使用TruthfulQA和MMLU作为保留评估。结果表明三个现象。首先,温和的SFT运行可以改进GSM8K,几乎没有遗忘,而压力SFT运行会导致大量的保留损失。其次,来自降级的SFT教师的OPD在GSM8K、TruthfulQA和MMLU上超过了该教师,尽管仅使用教师作为其监督来源。第三,轻量级的On-Policy RL运行可以改进GSM8K,同时保持保留。这些结果支持以状态为中心的后训练观点:训练状态的来源和局部性与监督信号的形式同样重要。

🔬 方法详解

问题定义:现有的大型语言模型后训练方法,如SFT、RL和蒸馏,通常侧重于优化损失函数,例如最大似然估计、策略梯度等。然而,这些方法忽略了训练数据状态分布的影响,导致模型在特定任务上性能提升的同时,可能出现知识遗忘或泛化能力下降的问题。现有方法缺乏对训练状态分布的有效控制和理解。

核心思路:本文的核心思路是将后训练过程视为一个状态分布塑造的过程。作者认为,训练数据的状态(即prompt加上生成的文本前缀)的来源和局部性,与监督信号的形式同样重要。通过控制训练状态的分布,可以更有效地提升模型性能,并避免不必要的知识遗忘。

技术框架:本文采用了一种受控的小规模实验框架,使用Qwen3-0.6B-Base模型在GSM8K数据集上进行训练,并使用TruthfulQA和MMLU数据集进行保留评估。实验对比了SFT、OPD和RL三种后训练方法,并分析了不同训练状态分布对模型性能的影响。具体流程包括:1) 使用不同强度的SFT进行预训练;2) 使用OPD从降级的SFT教师模型中学习;3) 使用轻量级的On-Policy RL进行训练。

关键创新:本文最重要的技术创新在于提出了一个以状态为中心的后训练视角。与以往侧重于损失函数优化的方法不同,本文强调了训练状态分布的重要性,并证明了通过控制训练状态的来源和局部性,可以更有效地提升模型性能,并避免知识遗忘。这种状态分布的视角为后训练方法的设计提供了新的思路。

关键设计:实验中,作者精心设计了不同强度的SFT训练,以模拟不同的状态分布。OPD方法使用降级的SFT教师模型作为监督信号,探索了从次优教师模型中学习的可能性。RL方法采用轻量级的On-Policy训练,以在提升性能的同时保持知识保留。具体的参数设置和损失函数选择遵循了常见的后训练实践,重点在于对比不同训练状态分布下的模型性能。

📊 实验亮点

实验结果表明,温和的SFT训练能有效提升GSM8K性能且几乎不损失知识,而过强的SFT训练会导致知识遗忘。更重要的是,从降级的SFT教师模型进行OPD,能在GSM8K、TruthfulQA和MMLU上超越教师模型,证明了状态分布的重要性。轻量级的On-Policy RL训练也能提升GSM8K性能,同时保持知识保留。

🎯 应用场景

该研究成果可应用于各种需要对大型语言模型进行后训练的场景,例如提升特定任务的性能、增强模型的知识保留能力、以及从次优模型中进行知识蒸馏。通过控制训练状态的分布,可以更有效地定制化语言模型,使其更好地适应特定应用需求,例如智能客服、教育辅导、代码生成等。

📄 摘要(原文)

Large language model post-training methods such as supervised fine-tuning (SFT), reinforcement learning (RL), and distillation are often analyzed through their loss functions: maximum likelihood, policy gradients, forward KL, reverse KL, or related objective-level variants. We study a complementary factor: the state distribution on which supervision is applied. For an autoregressive policy, a state is a prompt plus generated prefix. SFT trains on fixed dataset states, while RL and on-policy distillation (OPD) train on states induced by the current learner. We formalize post-training as state-distribution shaping and run a controlled smallscale study using Qwen3-0.6B-Base on GSM8K, with TruthfulQA and MMLU as retention evaluations. Our results show three phenomena. First, a mild SFT run improves GSM8K with little forgetting, while a stress SFT run causes substantial retention loss. Second, OPD from a degraded SFT teacher surpasses that teacher on GSM8K, TruthfulQA, and MMLU, despite using the teacher as its only supervision source. Third, a lightweight on-policy RL run improves GSM8K while preserving retention. These results support a state-centric view of post-training: the source and locality of training states can be as important as the form of the supervision signal.