MSSR: Memory-Aware Adaptive Replay for Continual LLM Fine-Tuning

📄 arXiv: 2603.09892v1 📥 PDF

作者: Yiyang Lu, Yu He, Jianlong Chen, Hongyuan Zha

分类: cs.LG, cs.AI, cs.CL

发布日期: 2026-03-10


💡 一句话要点

提出MSSR:记忆感知自适应重放方法,解决LLM持续微调中的灾难性遗忘问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 持续学习 灾难性遗忘 大型语言模型 经验重放 自适应学习

📋 核心要点

  1. 现有持续学习方法在LLM微调中存在灾难性遗忘问题,且计算开销大,难以兼顾性能与效率。
  2. MSSR通过估计样本记忆强度,自适应地调度重放间隔,从而在缓解遗忘的同时保持快速适应性。
  3. 实验结果表明,MSSR在多个任务和模型上优于现有重放方法,尤其在推理和多选题任务上提升显著。

📝 摘要(中文)

大型语言模型(LLM)的持续微调变得越来越重要,因为这些模型被部署在任务和数据分布随时间演变的动态环境中。强大的适应性使得模型能够快速获取新知识,但也使LLM容易遭受灾难性遗忘,即先前学习的技能在顺序训练期间退化。现有的基于重放的策略,如固定交错重放、准确率监督和损失驱动调度,仍然存在局限性:一些依赖于启发式规则,只能部分缓解遗忘;另一些提高了性能,但产生了大量的计算开销。受顺序微调下的记忆保持动态的启发,我们提出了记忆启发式采样器和调度器重放(MSSR),这是一个经验重放框架,它估计样本级别的记忆强度,并以自适应的间隔调度排练,以减轻灾难性遗忘,同时保持快速适应。在三个骨干模型和11个顺序任务上的大量实验表明,MSSR始终优于最先进的重放基线,在推理密集型和多项选择基准测试中尤其表现出强大的优势。

🔬 方法详解

问题定义:论文旨在解决大型语言模型在持续学习场景下,进行增量式微调时出现的灾难性遗忘问题。现有的重放策略要么依赖启发式规则,缓解效果有限;要么计算开销过大,难以在实际应用中部署。因此,如何在保证模型快速适应新任务的同时,有效保留先前学习的知识,是本研究要解决的核心问题。

核心思路:论文的核心思路是模拟人类记忆的保持和遗忘过程,认为不同样本的“记忆强度”不同,应该根据样本的记忆强度自适应地调整重放频率。记忆强度高的样本应该降低重放频率,而记忆强度低的样本应该增加重放频率,从而更有效地利用有限的计算资源,缓解灾难性遗忘。

技术框架:MSSR框架主要包含两个核心模块:记忆启发式采样器(Memory-Inspired Sampler)和调度器重放(Scheduler Replay)。记忆启发式采样器负责估计每个样本的记忆强度,调度器重放则根据记忆强度自适应地调整重放频率。整体流程为:首先,使用记忆启发式采样器计算每个样本的记忆强度;然后,根据记忆强度对样本进行排序,并选择一部分样本进行重放;最后,在训练过程中,根据调度器重放模块动态调整重放间隔。

关键创新:MSSR的关键创新在于提出了基于记忆强度的自适应重放策略。与传统的固定重放或基于损失的重放方法不同,MSSR能够根据样本的自身特性动态调整重放频率,从而更有效地缓解灾难性遗忘。这种方法更加符合人类的学习规律,也更具有通用性和可扩展性。

关键设计:记忆强度估计采用一种基于模型预测一致性的方法,即如果模型在不同时间点对同一样本的预测结果越一致,则认为该样本的记忆强度越高。调度器重放模块采用一种基于指数衰减的策略,即记忆强度越高的样本,重放间隔越长。具体的参数设置包括记忆强度估计的阈值、指数衰减的系数等,这些参数需要根据具体的任务和数据集进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,MSSR在多个基准测试中显著优于现有的重放方法。例如,在推理密集型任务上,MSSR的性能提升超过5%,在多项选择题任务上,性能提升超过8%。此外,MSSR在保持快速适应性的同时,有效缓解了灾难性遗忘,证明了其在持续学习场景下的有效性。

🎯 应用场景

MSSR方法可应用于各种需要持续学习的LLM应用场景,例如:在线客服、智能助手、对话系统等。这些应用需要不断学习新的知识和技能,同时保持对先前知识的记忆。MSSR能够有效缓解灾难性遗忘,提高模型的稳定性和可靠性,具有重要的实际应用价值和广阔的应用前景。

📄 摘要(原文)

Continual fine-tuning of large language models (LLMs) is becoming increasingly crucial as these models are deployed in dynamic environments where tasks and data distributions evolve over time. While strong adaptability enables rapid acquisition of new knowledge, it also exposes LLMs to catastrophic forgetting, where previously learned skills degrade during sequential training. Existing replay-based strategies, such as fixed interleaved replay, accuracy-supervised, and loss-driven scheduling, remain limited: some depend on heuristic rules and provide only partial mitigation of forgetting, while others improve performance but incur substantial computational overhead. Motivated by retention dynamics under sequential fine-tuning, we propose Memory-Inspired Sampler and Scheduler Replay (MSSR), an experience replay framework that estimates sample-level memory strength and schedules rehearsal at adaptive intervals to mitigate catastrophic forgetting while maintaining fast adaptation. Extensive experiments across three backbone models and 11 sequential tasks show that MSSR consistently outperforms state-of-the-art replay baselines, with particularly strong gains on reasoning-intensive and multiple-choice benchmarks.