Learning, Fast and Slow: Towards LLMs That Adapt Continually
作者: Rishabh Tiwari, Kusha Sareen, Lakshya A Agrawal, Joseph E. Gonzalez, Matei Zaharia, Kurt Keutzer, Inderjit S Dhillon, Rishabh Agarwal, Devvrit Khatri
分类: cs.LG, cs.AI
发布日期: 2026-05-12
💡 一句话要点
提出快速-慢速学习框架,提升LLM持续学习能力并减少灾难性遗忘。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 持续学习 灾难性遗忘 强化学习 上下文学习
📋 核心要点
- 现有LLM通过参数更新适应下游任务,但易导致灾难性遗忘和可塑性丧失,而上下文学习性能提升有限。
- 提出快速-慢速学习框架,将模型参数视为慢速权重,优化上下文作为快速权重,实现任务特定信息的快速吸收。
- 实验表明,FST在推理任务中样本效率更高,灾难性遗忘更少,且在持续学习中表现优于传统强化学习。
📝 摘要(中文)
大型语言模型(LLM)通常通过更新模型参数(例如,通过强化学习)来适应下游任务。然而,参数更新迫使模型吸收特定任务的信息,可能导致灾难性遗忘和可塑性丧失。相比之下,使用固定LLM参数的上下文学习可以快速且廉价地适应特定任务的需求(例如,提示优化),但通常无法达到通过更新LLM参数所获得的性能提升。论文提出一种LLM的快速-慢速学习框架,将模型参数视为“慢速”权重,将优化的上下文视为“快速”权重。这些快速“权重”可以从文本反馈中学习以吸收特定任务的信息,同时允许慢速权重更接近基础模型并保持一般的推理能力。快速-慢速训练(FST)在推理任务中比仅慢速学习(强化学习)的样本效率高3倍,同时始终达到更高的性能渐近线。此外,FST训练的模型更接近基础LLM(KL散度降低高达70%),从而减少了灾难性遗忘。这种减少的漂移也保留了可塑性:在训练一个任务后,FST训练的模型比仅参数训练的模型更有效地适应后续任务。在任务领域动态变化的持续学习场景中,FST继续获取每个新任务,而仅参数强化学习则停滞不前。
🔬 方法详解
问题定义:现有大型语言模型在适应新任务时,主要通过更新模型参数或依赖上下文学习。参数更新容易导致灾难性遗忘,即模型忘记之前学习过的知识。而上下文学习虽然快速,但性能往往不如参数更新。因此,如何让LLM在适应新任务的同时,保持通用能力和避免灾难性遗忘是一个关键问题。
核心思路:论文的核心思路是将学习过程分解为快速和慢速两个部分。慢速学习对应于模型参数的更新,负责学习通用知识和推理能力。快速学习对应于上下文的学习,负责快速适应特定任务的需求。通过这种方式,模型可以在不显著改变参数的情况下,快速适应新任务,从而减少灾难性遗忘。
技术框架:快速-慢速学习框架(FST)包含两个主要部分:慢速权重(模型参数)和快速权重(优化的上下文)。慢速权重通过传统的训练方法(如强化学习)进行更新,以学习通用知识。快速权重通过优化上下文来实现,例如通过梯度下降或进化算法。在训练过程中,模型首先使用慢速权重进行推理,然后使用快速权重对上下文进行调整,以适应特定任务。
关键创新:该方法最重要的创新点在于将学习过程分解为快速和慢速两个部分,并分别使用不同的机制进行更新。与传统的参数更新方法相比,FST可以更好地平衡性能和可塑性,减少灾难性遗忘。与上下文学习相比,FST可以利用慢速权重学习到的通用知识,从而提高性能。
关键设计:关键设计包括:1) 如何选择合适的上下文表示;2) 如何优化上下文,例如使用梯度下降或进化算法;3) 如何平衡慢速权重和快速权重之间的影响,例如通过调整损失函数的权重。论文中使用了KL散度来衡量模型与原始模型的偏离程度,并将其作为正则化项加入损失函数中,以减少灾难性遗忘。
🖼️ 关键图片
📊 实验亮点
实验结果表明,FST在推理任务中比仅慢速学习(强化学习)的样本效率高3倍,同时始终达到更高的性能。FST训练的模型更接近基础LLM(KL散度降低高达70%),从而减少了灾难性遗忘。在持续学习场景中,FST能够持续学习新任务,而仅参数强化学习则停滞不前。
🎯 应用场景
该研究成果可应用于需要持续学习和适应新任务的LLM应用场景,例如智能客服、对话系统、机器人控制等。通过减少灾难性遗忘,模型可以更好地保持通用能力,并在不断变化的环境中提供更可靠的服务。此外,该方法还可以提高LLM在资源受限环境中的应用能力,因为快速学习部分不需要大量的计算资源。
📄 摘要(原文)
Large language models (LLMs) are trained for downstream tasks by updating their parameters (e.g., via RL). However, updating parameters forces them to absorb task-specific information, which can result in catastrophic forgetting and loss of plasticity. In contrast, in-context learning with fixed LLM parameters can cheaply and rapidly adapt to task-specific requirements (e.g., prompt optimization), but cannot by itself typically match the performance gains available through updating LLM parameters. There is no good reason for restricting learning to being in-context or in-weights. Moreover, humans also likely learn at different time scales (e.g., System 1 vs 2). To this end, we introduce a fast-slow learning framework for LLMs, with model parameters as "slow" weights and optimized context as "fast" weights. These fast "weights" can learn from textual feedback to absorb the task-specific information, while allowing slow weights to stay closer to the base model and persist general reasoning behaviors. Fast-Slow Training (FST) is up to 3x more sample-efficient than only slow learning (RL) across reasoning tasks, while consistently reaching a higher performance asymptote. Moreover, FST-trained models remain closer to the base LLM (up to 70% less KL divergence), resulting in less catastrophic forgetting than RL-training. This reduced drift also preserves plasticity: after training on one task, FST trained models adapt more effectively to a subsequent task than parameter-only trained models. In continual learning scenarios, where task domains change on the fly, FST continues to acquire each new task while parameter-only RL stalls.