On-Policy Replay for Continual Supervised Fine-Tuning

作者: Yan Chen, Taojie Zhu, Meng Zhang, Xin Chen, Jiaqi Huang, Dongyang Xu, Yizhi Wang

分类: cs.LG

发布日期: 2026-05-28

🔗 代码/项目: GITHUB

💡 一句话要点

提出On-Policy Replay方法，解决持续监督微调中大语言模型的灾难性遗忘问题。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 持续学习 灾难性遗忘 在策略学习 监督微调 大型语言模型 回放机制 指令微调

📋 核心要点

核心问题是持续监督微调导致大语言模型对先前任务的灾难性遗忘，现有方法依赖额外的训练目标和教师模型。
OPR方法的核心思想是通过回放模型自身生成的、经过奖励过滤的高质量响应，作为额外的SFT训练数据，从而缓解遗忘。
实验结果表明，OPR在多个7-8B模型上显著降低了灾难性遗忘，在最严格的测试中，|BWT|降低高达46%。

📝 摘要（中文）

持续监督微调(SFT)是将大型语言模型(LLM)适应于一系列下游任务的常用方法，但它会遭受对早期能力的灾难性遗忘。最近的研究表明，相比于离策略监督，使用模型自身输出的在策略信号能更可靠地减少遗忘。现有的在策略方法通过新的训练目标（例如，带有教师副本的自蒸馏损失）来传递此信号，从而继承了额外的正向传递、对时间表的敏感性以及来自教师的风格漂移。我们转而通过训练数据源来传递在策略信号。我们的方法，On-Policy Replay (OPR)，在少量历史提示上运行最新的检查点，通过任务奖励过滤生成结果，并将幸存的(提示，模型响应)对作为普通的SFT示例进行回放。没有教师，没有辅助损失，也没有即时蒸馏。在TRACE持续学习基准测试中的三个7-8B指令微调backbone（Qwen2.5-7B-Instruct, Qwen3-8B, Llama3.1-8B-Instruct）上，OPR始终减少遗忘；在最严格的压力测试（Qwen2.5-7B-Instruct, Sequential SFT BWT -13.93）中，OPR在10%的回放预算下将BWT提升至-0.65，在1%的预算下提升至-2.29——与调整后的Vanilla Replay基线相比，|BWT|降低了46%，在所有三个backbone上观察到42-46%的降低。我们给出了一个KL-shrinkage解释，将OPR和先前的在策略蒸馏方法放在一个轴上，并且我们提出了一个违反直觉的发现，解释了为什么Vanilla Replay已经是一个强大的基线：低分回放比Vanilla Replay更差，表明OPR中的活性成分是在策略分布，而不仅仅是响应质量。

🔬 方法详解

问题定义：论文旨在解决持续监督微调（SFT）过程中，大型语言模型（LLM）在学习新任务时遗忘先前任务知识的灾难性遗忘问题。现有方法，如基于自蒸馏的在策略学习，虽然能缓解遗忘，但引入了额外的计算开销（额外的正向传播）、对超参数的敏感性，以及潜在的风格漂移，增加了训练的复杂性。

核心思路：OPR的核心思路是通过回放模型自身生成的、经过任务奖励过滤的高质量响应，来强化模型对先前任务的记忆。这种方法利用了在策略学习的优势，即模型在自身输出上进行训练，从而更好地保持一致性。关键在于，只回放高质量的响应，避免引入噪声。

技术框架：OPR的整体流程如下：1) 使用最新的模型检查点，在一小部分历史提示上生成响应。2) 使用任务奖励函数对生成的响应进行评分。3) 过滤掉低分响应，只保留高质量的(提示，模型响应)对。4) 将这些保留的(提示，模型响应)对作为普通的SFT训练数据，与当前任务的数据一起用于训练模型。

关键创新：OPR的关键创新在于它将on-policy信号直接注入到训练数据源中，避免了使用教师模型和额外的损失函数。与现有在策略方法相比，OPR更加简洁高效，易于实现和调试。此外，论文还发现，回放低质量的响应实际上会损害性能，这表明在策略分布的重要性高于响应的绝对质量。

关键设计：OPR的关键设计包括：1) 回放预算：控制回放数据的比例，通常设置为原始数据集的一小部分（例如1%或10%）。2) 任务奖励函数：用于评估生成响应的质量，可以是任何与任务相关的指标。3) 过滤策略：根据奖励分数过滤掉低质量的响应。论文没有明确指定具体的网络结构或损失函数，因为OPR可以与任何标准的SFT设置结合使用。

🖼️ 关键图片

📊 实验亮点

实验结果表明，OPR在三个7-8B模型（Qwen2.5-7B-Instruct, Qwen3-8B, Llama3.1-8B-Instruct）上均能显著降低灾难性遗忘。在Qwen2.5-7B-Instruct模型上，OPR在10%的回放预算下将BWT从-13.93提升至-0.65，在1%的预算下提升至-2.29，相比于Vanilla Replay基线，|BWT|降低了46%。

🎯 应用场景

OPR方法可应用于各种需要持续学习的场景，例如：持续更新的聊天机器人、不断适应新任务的智能助手、以及需要长期维护和演进的知识库系统。该方法能够有效提升模型在持续学习过程中的稳定性和可靠性，降低维护成本。

📄 摘要（原文）

Continual supervised fine-tuning (SFT) is the de facto recipe for adapting large language models (LLMs) to a stream of downstream tasks, but it suffers from catastrophic forgetting of earlier capabilities. Recent work shows that on-policy signals -- training on the model's own outputs -- reduce forgetting more reliably than off-policy supervision. Existing on-policy methods route this signal through a new training objective (e.g., self-distillation losses with a teacher copy), inheriting an extra forward pass, schedule sensitivity, and stylistic drift from the teacher.We instead route the on-policy signal through the training data source. Our method, On-Policy Replay (OPR), rolls out the most recent checkpoint on a small budget of historical prompts, filters the generations by a task reward, and replays the surviving (prompt, model response) pairs as ordinary SFT examples. There is no teacher, no auxiliary loss, and no on-the-fly distillation. Across three 7--8B instruction-tuned backbones (Qwen2.5-7B-Instruct, Qwen3-8B, Llama3.1-8B-Instruct) on the TRACE continual-learning benchmark, OPR consistently reduces forgetting; on the sharpest stress test (Qwen2.5-7B-Instruct, Sequential SFT BWT -13.93), OPR lifts BWT to -0.65 at a 10% replay budget and to -2.29 at a 1% budget -- a 46% reduction in |BWT| over a tuned Vanilla Replay baseline, with 42--46% reductions observed across all three backbones. We give a KL-shrinkage interpretation that places OPR and prior on-policy distillation methods on a single axis, and we present a counterintuitive finding that explains why Vanilla Replay is already a strong baseline: low-score replay is uniformly worse than Vanilla Replay, demonstrating that the active ingredient in OPR is the on-policy distribution, not the response quality alone.Our code is available at https://github.com/Yancey2024/OnPolicyReplay.

On-Policy Replay for Continual Supervised Fine-Tuning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理