FOREVER: Forgetting Curve-Inspired Memory Replay for Language Model Continual Learning

📄 arXiv: 2601.03938v1 📥 PDF

作者: Yujie Feng, Hao Wang, Jian Li, Xu Chu, Zhaolu Kang, Yiran Liu, Yasha Wang, Philip S. Yu, Xiao-Ming Wu

分类: cs.LG, cs.AI, cs.CL

发布日期: 2026-01-07


💡 一句话要点

FOREVER:受遗忘曲线启发的语言模型持续学习记忆回放框架

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 持续学习 语言模型 灾难性遗忘 记忆回放 遗忘曲线

📋 核心要点

  1. 现有持续学习方法依赖固定步骤启发式,忽略了模型学习进度差异,导致回放策略与模型状态不匹配。
  2. FOREVER框架通过优化器更新幅度定义模型时间,使回放计划与模型内部演化对齐,更符合模型遗忘规律。
  3. 实验表明,FOREVER在多个基准和不同规模模型上,均能有效缓解灾难性遗忘,提升持续学习性能。

📝 摘要(中文)

大型语言模型(LLM)的持续学习(CL)旨在实现顺序知识获取,同时避免灾难性遗忘。记忆回放方法因其有效性和实用性而被广泛使用,但大多数方法依赖于固定的、基于步骤的启发式方法,这些方法通常与模型的实际学习进度不一致,因为相同的训练步骤可能导致不同程度的参数变化。受最近LLM遗忘反映了艾宾浩斯人类遗忘曲线的发现的启发,我们提出了FOREVER(FORgEtting curVe-inspired mEmory Replay),这是一个新颖的CL框架,它将回放计划与模型中心的时间概念对齐。FOREVER使用优化器更新的幅度来定义模型时间,允许受遗忘曲线启发的重放间隔与模型的内部演化而不是原始训练步骤对齐。在此方法的基础上,FOREVER结合了基于遗忘曲线的回放调度器来确定何时回放,以及一种强度感知正则化机制来自适应地控制如何回放。在三个CL基准和参数范围从0.6B到13B的模型上进行的大量实验表明,FOREVER始终可以减轻灾难性遗忘。

🔬 方法详解

问题定义:论文旨在解决大型语言模型在持续学习过程中出现的灾难性遗忘问题。现有的记忆回放方法通常采用基于固定训练步骤的启发式策略,未能充分考虑模型在不同训练阶段的学习状态差异,导致回放效率低下,无法有效缓解遗忘。

核心思路:论文的核心思路是借鉴艾宾浩斯遗忘曲线,认为LLM的遗忘过程也遵循类似的规律。因此,论文提出使用模型自身的更新幅度来定义“模型时间”,并以此为基础设计回放策略,使回放过程与模型的遗忘曲线相匹配,从而更有效地保留已学习的知识。

技术框架:FOREVER框架主要包含两个核心模块:1) 遗忘曲线驱动的回放调度器:该模块根据模型时间的流逝,动态调整回放的频率和时间点,使回放过程与模型的遗忘曲线对齐。2) 强度感知正则化机制:该模块根据回放数据的“强度”(例如,回放数据对模型参数的影响程度),自适应地调整正则化强度,以防止过度拟合回放数据,并保持模型的泛化能力。整体流程是,在训练新任务时,模型会根据遗忘曲线调度器定期回放旧任务的数据,并利用强度感知正则化机制来平衡新旧知识的学习。

关键创新:FOREVER的关键创新在于提出了基于模型时间的持续学习框架。与传统的基于训练步骤的方法不同,FOREVER使用优化器更新的幅度来定义模型时间,从而更准确地反映模型的学习状态。此外,FOREVER还引入了遗忘曲线驱动的回放调度器和强度感知正则化机制,进一步提升了回放效率和模型的泛化能力。

关键设计:模型时间定义为优化器更新幅度的累积和。遗忘曲线采用指数衰减形式,用于计算回放频率。强度感知正则化机制使用回放数据梯度范数作为强度指标,并根据强度动态调整正则化系数。具体参数设置未知。

📊 实验亮点

实验结果表明,FOREVER在三个持续学习基准测试中均优于现有的记忆回放方法。例如,在某些基准测试中,FOREVER的性能提升幅度超过5%。此外,实验还验证了FOREVER在不同规模的模型上的有效性,包括参数量从0.6B到13B的模型。

🎯 应用场景

FOREVER框架可应用于各种需要持续学习的语言模型场景,例如:在线学习、个性化推荐、对话系统等。通过缓解灾难性遗忘,该方法可以使模型在不断学习新知识的同时,保持对旧知识的记忆,从而提升模型的整体性能和用户体验。未来,该方法有望应用于更复杂的持续学习任务,例如多模态持续学习、跨领域持续学习等。

📄 摘要(原文)

Continual learning (CL) for large language models (LLMs) aims to enable sequential knowledge acquisition without catastrophic forgetting. Memory replay methods are widely used for their practicality and effectiveness, but most rely on fixed, step-based heuristics that often misalign with the model's actual learning progress, since identical training steps can result in varying degrees of parameter change. Motivated by recent findings that LLM forgetting mirrors the Ebbinghaus human forgetting curve, we propose FOREVER (FORgEtting curVe-inspired mEmory Replay), a novel CL framework that aligns replay schedules with a model-centric notion of time. FOREVER defines model time using the magnitude of optimizer updates, allowing forgetting curve-inspired replay intervals to align with the model's internal evolution rather than raw training steps. Building on this approach, FOREVER incorporates a forgetting curve-based replay scheduler to determine when to replay and an intensity-aware regularization mechanism to adaptively control how to replay. Extensive experiments on three CL benchmarks and models ranging from 0.6B to 13B parameters demonstrate that FOREVER consistently mitigates catastrophic forgetting.