Joint Flashback Adaptation for Forgetting-Resistant Instruction Tuning

📄 arXiv: 2505.15467v1 📥 PDF

作者: Yukun Zhao, Lingyong Yan, Zhenyang Li, Shuaiqiang Wang, Zhumin Chen, Zhaochun Ren, Dawei Yin

分类: cs.CL, cs.AI

发布日期: 2025-05-21


💡 一句话要点

提出Joint Flashback Adaptation方法,解决指令调优中大模型灾难性遗忘问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 持续学习 灾难性遗忘 指令调优 大语言模型 知识迁移

📋 核心要点

  1. 现有增量学习方法依赖经验回放等,实际应用受限,难以克服灾难性遗忘。
  2. 提出Joint Flashback Adaptation,利用少量旧任务提示,约束模型输出,插值潜在任务。
  3. 实验证明,该方法在指令跟随、算术和通用推理任务上,显著提升泛化能力并减少遗忘。

📝 摘要(中文)

大型语言模型在各种任务中取得了显著成功。然而,由于灾难性遗忘,它们在增量学习新任务时面临挑战。现有方法依赖于经验回放、优化约束或任务区分,但在实际场景中存在严格的限制。为了解决这些问题,我们提出了Joint Flashback Adaptation。我们首先引入flashbacks——来自旧任务的少量提示——在适应新任务时,并约束模型输出与原始输出的偏差。然后,我们在flashbacks和新任务之间插值潜在任务,以实现联合学习相关的潜在任务、新任务和flashbacks,从而缓解flashbacks中的数据稀疏性,并促进知识共享以实现平滑适应。我们的方法只需要有限数量的flashbacks,无需访问回放数据,并且与任务无关。我们在1000多个指令跟随任务、算术推理任务和一般推理任务上对最先进的大型语言模型进行了广泛的实验。结果表明,我们的方法在提高新任务的泛化能力和减少旧任务的遗忘方面表现出优越的性能。

🔬 方法详解

问题定义:大型语言模型在增量学习新任务时,会发生灾难性遗忘,即学习新知识的同时忘记旧知识。现有方法如经验回放需要存储大量旧数据,优化约束和任务区分则限制了模型的灵活性和泛化能力。这些方法在实际应用中面临数据存储、计算资源和任务依赖等问题。

核心思路:论文的核心思路是利用少量旧任务的“flashbacks”(提示)来引导模型学习新任务,同时避免灾难性遗忘。通过约束模型在新任务上的输出与在flashbacks上的输出之间的偏差,以及在flashbacks和新任务之间插值潜在任务,实现知识的平滑迁移和共享。

技术框架:Joint Flashback Adaptation包含两个主要步骤:1) Flashback约束:在适应新任务时,引入少量来自旧任务的提示(flashbacks),并使用损失函数约束模型在新任务上的输出与在flashbacks上的输出之间的偏差。2) 潜在任务插值:在flashbacks和新任务之间插值潜在任务,以缓解flashbacks中的数据稀疏性,并促进知识共享。整体流程是先利用flashbacks进行约束,然后通过插值潜在任务进行知识增强和迁移。

关键创新:该方法的主要创新在于:1) 仅使用少量flashbacks,无需访问完整的旧数据,降低了存储和计算成本。2) 通过插值潜在任务,缓解了flashbacks的数据稀疏性问题,提高了知识迁移的效率。3) 该方法是任务无关的,可以应用于各种不同的任务,具有较强的通用性。

关键设计:Flashback约束使用KL散度或余弦相似度等方法来衡量模型在新任务和flashbacks上的输出之间的偏差。潜在任务插值通过线性插值或更复杂的插值方法生成新的任务表示,并将其用于训练模型。损失函数包括新任务的损失、flashbacks约束的损失和潜在任务的损失,通过调整这些损失的权重来平衡新知识学习和旧知识保持。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Joint Flashback Adaptation在多个任务上显著优于现有方法。例如,在指令跟随任务上,该方法在保持旧任务性能的同时,提高了新任务的泛化能力。与基线方法相比,该方法在减少遗忘方面取得了显著的提升,证明了其有效性。

🎯 应用场景

该研究成果可应用于持续学习场景,例如智能助手、对话系统等,使其能够在不断学习新技能的同时,保持原有技能的性能。该方法降低了存储和计算成本,使得在资源受限的设备上进行持续学习成为可能。未来可进一步探索更有效的潜在任务插值方法,提升知识迁移效率。

📄 摘要(原文)

Large language models have achieved remarkable success in various tasks. However, it is challenging for them to learn new tasks incrementally due to catastrophic forgetting. Existing approaches rely on experience replay, optimization constraints, or task differentiation, which encounter strict limitations in real-world scenarios. To address these issues, we propose Joint Flashback Adaptation. We first introduce flashbacks -- a limited number of prompts from old tasks -- when adapting to new tasks and constrain the deviations of the model outputs compared to the original one. We then interpolate latent tasks between flashbacks and new tasks to enable jointly learning relevant latent tasks, new tasks, and flashbacks, alleviating data sparsity in flashbacks and facilitating knowledge sharing for smooth adaptation. Our method requires only a limited number of flashbacks without access to the replay data and is task-agnostic. We conduct extensive experiments on state-of-the-art large language models across 1000+ instruction-following tasks, arithmetic reasoning tasks, and general reasoning tasks. The results demonstrate the superior performance of our method in improving generalization on new tasks and reducing forgetting in old tasks.