Post-Training is About States, Not Tokens: A State Distribution View of SFT, RL, and On-Policy Distillation

作者: Dong Nie

分类: cs.LG, cs.AI

发布日期: 2026-05-21

💡 一句话要点

基于状态分布视角分析SFT、RL和On-Policy蒸馏的后训练方法

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 后训练 状态分布 监督微调 强化学习 On-Policy蒸馏 知识保留 大型语言模型

📋 核心要点

现有后训练方法主要关注损失函数优化，忽略了训练数据状态分布的影响，导致性能提升不稳定。
论文将后训练过程视为状态分布的塑造，强调训练状态的来源和局部性对模型性能的关键作用。
实验表明，适当的状态分布选择能显著提升模型在GSM8K等任务上的性能，并有效避免遗忘。

📝 摘要（中文）

大型语言模型后训练方法，如监督微调(SFT)、强化学习(RL)和蒸馏，通常通过其损失函数进行分析：最大似然、策略梯度、前向KL散度、反向KL散度或相关的目标级别变体。本文研究了一个互补因素：应用监督的状态分布。对于自回归策略，状态是提示加上生成的文本前缀。SFT在固定数据集状态上训练，而RL和On-Policy蒸馏(OPD)在当前学习器诱导的状态上训练。我们将后训练形式化为状态分布塑造，并使用Qwen3-0.6B-Base在GSM8K上进行受控的小规模研究，并使用TruthfulQA和MMLU作为保留评估。结果表明三个现象。首先，温和的SFT运行可以改进GSM8K，几乎没有遗忘，而压力SFT运行会导致大量的保留损失。其次，来自降级的SFT教师的OPD在GSM8K、TruthfulQA和MMLU上超过了该教师，尽管仅使用教师作为其监督来源。第三，轻量级的On-Policy RL运行可以改进GSM8K，同时保持保留。这些结果支持以状态为中心的后训练观点：训练状态的来源和局部性与监督信号的形式同样重要。

🔬 方法详解

问题定义：现有的大型语言模型后训练方法，如SFT、RL和蒸馏，通常侧重于优化损失函数，例如最大似然估计、策略梯度等。然而，这些方法忽略了训练数据状态分布的影响，导致模型在特定任务上性能提升的同时，可能出现知识遗忘或泛化能力下降的问题。现有方法缺乏对训练状态分布的有效控制和理解。

核心思路：本文的核心思路是将后训练过程视为一个状态分布塑造的过程。作者认为，训练数据的状态（即prompt加上生成的文本前缀）的来源和局部性，与监督信号的形式同样重要。通过控制训练状态的分布，可以更有效地提升模型性能，并避免不必要的知识遗忘。

技术框架：本文采用了一种受控的小规模实验框架，使用Qwen3-0.6B-Base模型在GSM8K数据集上进行训练，并使用TruthfulQA和MMLU数据集进行保留评估。实验对比了SFT、OPD和RL三种后训练方法，并分析了不同训练状态分布对模型性能的影响。具体流程包括：1) 使用不同强度的SFT进行预训练；2) 使用OPD从降级的SFT教师模型中学习；3) 使用轻量级的On-Policy RL进行训练。

关键创新：本文最重要的技术创新在于提出了一个以状态为中心的后训练视角。与以往侧重于损失函数优化的方法不同，本文强调了训练状态分布的重要性，并证明了通过控制训练状态的来源和局部性，可以更有效地提升模型性能，并避免知识遗忘。这种状态分布的视角为后训练方法的设计提供了新的思路。

关键设计：实验中，作者精心设计了不同强度的SFT训练，以模拟不同的状态分布。OPD方法使用降级的SFT教师模型作为监督信号，探索了从次优教师模型中学习的可能性。RL方法采用轻量级的On-Policy训练，以在提升性能的同时保持知识保留。具体的参数设置和损失函数选择遵循了常见的后训练实践，重点在于对比不同训练状态分布下的模型性能。

📊 实验亮点

实验结果表明，温和的SFT训练能有效提升GSM8K性能且几乎不损失知识，而过强的SFT训练会导致知识遗忘。更重要的是，从降级的SFT教师模型进行OPD，能在GSM8K、TruthfulQA和MMLU上超越教师模型，证明了状态分布的重要性。轻量级的On-Policy RL训练也能提升GSM8K性能，同时保持知识保留。

🎯 应用场景

该研究成果可应用于各种需要对大型语言模型进行后训练的场景，例如提升特定任务的性能、增强模型的知识保留能力、以及从次优模型中进行知识蒸馏。通过控制训练状态的分布，可以更有效地定制化语言模型，使其更好地适应特定应用需求，例如智能客服、教育辅导、代码生成等。

📄 摘要（原文）

Large language model post-training methods such as supervised fine-tuning (SFT), reinforcement learning (RL), and distillation are often analyzed through their loss functions: maximum likelihood, policy gradients, forward KL, reverse KL, or related objective-level variants. We study a complementary factor: the state distribution on which supervision is applied. For an autoregressive policy, a state is a prompt plus generated prefix. SFT trains on fixed dataset states, while RL and on-policy distillation (OPD) train on states induced by the current learner. We formalize post-training as state-distribution shaping and run a controlled smallscale study using Qwen3-0.6B-Base on GSM8K, with TruthfulQA and MMLU as retention evaluations. Our results show three phenomena. First, a mild SFT run improves GSM8K with little forgetting, while a stress SFT run causes substantial retention loss. Second, OPD from a degraded SFT teacher surpasses that teacher on GSM8K, TruthfulQA, and MMLU, despite using the teacher as its only supervision source. Third, a lightweight on-policy RL run improves GSM8K while preserving retention. These results support a state-centric view of post-training: the source and locality of training states can be as important as the form of the supervision signal.

Post-Training is About States, Not Tokens: A State Distribution View of SFT, RL, and On-Policy Distillation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理