On-Policy Replay for Continual Supervised Fine-Tuning

📄 arXiv: 2605.29495v1 📥 PDF

作者: Yan Chen, Taojie Zhu, Meng Zhang, Xin Chen, Jiaqi Huang, Dongyang Xu, Yizhi Wang

分类: cs.LG

发布日期: 2026-05-28

🔗 代码/项目: GITHUB


💡 一句话要点

提出On-Policy Replay方法,解决持续监督微调中大语言模型的灾难性遗忘问题。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 持续学习 灾难性遗忘 在策略学习 监督微调 大型语言模型 回放机制 指令微调

📋 核心要点

  1. 核心问题是持续监督微调导致大语言模型对先前任务的灾难性遗忘,现有方法依赖额外的训练目标和教师模型。
  2. OPR方法的核心思想是通过回放模型自身生成的、经过奖励过滤的高质量响应,作为额外的SFT训练数据,从而缓解遗忘。
  3. 实验结果表明,OPR在多个7-8B模型上显著降低了灾难性遗忘,在最严格的测试中,|BWT|降低高达46%。

📝 摘要(中文)

持续监督微调(SFT)是将大型语言模型(LLM)适应于一系列下游任务的常用方法,但它会遭受对早期能力的灾难性遗忘。最近的研究表明,相比于离策略监督,使用模型自身输出的在策略信号能更可靠地减少遗忘。现有的在策略方法通过新的训练目标(例如,带有教师副本的自蒸馏损失)来传递此信号,从而继承了额外的正向传递、对时间表的敏感性以及来自教师的风格漂移。我们转而通过训练数据源来传递在策略信号。我们的方法,On-Policy Replay (OPR),在少量历史提示上运行最新的检查点,通过任务奖励过滤生成结果,并将幸存的(提示,模型响应)对作为普通的SFT示例进行回放。没有教师,没有辅助损失,也没有即时蒸馏。在TRACE持续学习基准测试中的三个7-8B指令微调backbone(Qwen2.5-7B-Instruct, Qwen3-8B, Llama3.1-8B-Instruct)上,OPR始终减少遗忘;在最严格的压力测试(Qwen2.5-7B-Instruct, Sequential SFT BWT -13.93)中,OPR在10%的回放预算下将BWT提升至-0.65,在1%的预算下提升至-2.29——与调整后的Vanilla Replay基线相比,|BWT|降低了46%,在所有三个backbone上观察到42-46%的降低。我们给出了一个KL-shrinkage解释,将OPR和先前的在策略蒸馏方法放在一个轴上,并且我们提出了一个违反直觉的发现,解释了为什么Vanilla Replay已经是一个强大的基线:低分回放比Vanilla Replay更差,表明OPR中的活性成分是在策略分布,而不仅仅是响应质量。

🔬 方法详解

问题定义:论文旨在解决持续监督微调(SFT)过程中,大型语言模型(LLM)在学习新任务时遗忘先前任务知识的灾难性遗忘问题。现有方法,如基于自蒸馏的在策略学习,虽然能缓解遗忘,但引入了额外的计算开销(额外的正向传播)、对超参数的敏感性,以及潜在的风格漂移,增加了训练的复杂性。

核心思路:OPR的核心思路是通过回放模型自身生成的、经过任务奖励过滤的高质量响应,来强化模型对先前任务的记忆。这种方法利用了在策略学习的优势,即模型在自身输出上进行训练,从而更好地保持一致性。关键在于,只回放高质量的响应,避免引入噪声。

技术框架:OPR的整体流程如下:1) 使用最新的模型检查点,在一小部分历史提示上生成响应。2) 使用任务奖励函数对生成的响应进行评分。3) 过滤掉低分响应,只保留高质量的(提示,模型响应)对。4) 将这些保留的(提示,模型响应)对作为普通的SFT训练数据,与当前任务的数据一起用于训练模型。

关键创新:OPR的关键创新在于它将on-policy信号直接注入到训练数据源中,避免了使用教师模型和额外的损失函数。与现有在策略方法相比,OPR更加简洁高效,易于实现和调试。此外,论文还发现,回放低质量的响应实际上会损害性能,这表明在策略分布的重要性高于响应的绝对质量。

关键设计:OPR的关键设计包括:1) 回放预算:控制回放数据的比例,通常设置为原始数据集的一小部分(例如1%或10%)。2) 任务奖励函数:用于评估生成响应的质量,可以是任何与任务相关的指标。3) 过滤策略:根据奖励分数过滤掉低质量的响应。论文没有明确指定具体的网络结构或损失函数,因为OPR可以与任何标准的SFT设置结合使用。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,OPR在三个7-8B模型(Qwen2.5-7B-Instruct, Qwen3-8B, Llama3.1-8B-Instruct)上均能显著降低灾难性遗忘。在Qwen2.5-7B-Instruct模型上,OPR在10%的回放预算下将BWT从-13.93提升至-0.65,在1%的预算下提升至-2.29,相比于Vanilla Replay基线,|BWT|降低了46%。

🎯 应用场景

OPR方法可应用于各种需要持续学习的场景,例如:持续更新的聊天机器人、不断适应新任务的智能助手、以及需要长期维护和演进的知识库系统。该方法能够有效提升模型在持续学习过程中的稳定性和可靠性,降低维护成本。

📄 摘要(原文)

Continual supervised fine-tuning (SFT) is the de facto recipe for adapting large language models (LLMs) to a stream of downstream tasks, but it suffers from catastrophic forgetting of earlier capabilities. Recent work shows that on-policy signals -- training on the model's own outputs -- reduce forgetting more reliably than off-policy supervision. Existing on-policy methods route this signal through a new training objective (e.g., self-distillation losses with a teacher copy), inheriting an extra forward pass, schedule sensitivity, and stylistic drift from the teacher.We instead route the on-policy signal through the training data source. Our method, On-Policy Replay (OPR), rolls out the most recent checkpoint on a small budget of historical prompts, filters the generations by a task reward, and replays the surviving (prompt, model response) pairs as ordinary SFT examples. There is no teacher, no auxiliary loss, and no on-the-fly distillation. Across three 7--8B instruction-tuned backbones (Qwen2.5-7B-Instruct, Qwen3-8B, Llama3.1-8B-Instruct) on the TRACE continual-learning benchmark, OPR consistently reduces forgetting; on the sharpest stress test (Qwen2.5-7B-Instruct, Sequential SFT BWT -13.93), OPR lifts BWT to -0.65 at a 10% replay budget and to -2.29 at a 1% budget -- a 46% reduction in |BWT| over a tuned Vanilla Replay baseline, with 42--46% reductions observed across all three backbones. We give a KL-shrinkage interpretation that places OPR and prior on-policy distillation methods on a single axis, and we present a counterintuitive finding that explains why Vanilla Replay is already a strong baseline: low-score replay is uniformly worse than Vanilla Replay, demonstrating that the active ingredient in OPR is the on-policy distribution, not the response quality alone.Our code is available at https://github.com/Yancey2024/OnPolicyReplay.