Learning, Fast and Slow: Towards LLMs That Adapt Continually

作者: Rishabh Tiwari, Kusha Sareen, Lakshya A Agrawal, Joseph E. Gonzalez, Matei Zaharia, Kurt Keutzer, Inderjit S Dhillon, Rishabh Agarwal, Devvrit Khatri

分类: cs.LG, cs.AI

发布日期: 2026-05-12

💡 一句话要点

提出快速-慢速学习框架，提升LLM持续学习能力并减少灾难性遗忘。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 持续学习 灾难性遗忘 强化学习 上下文学习

📋 核心要点

现有LLM通过参数更新适应下游任务，但易导致灾难性遗忘和可塑性丧失，而上下文学习性能提升有限。
提出快速-慢速学习框架，将模型参数视为慢速权重，优化上下文作为快速权重，实现任务特定信息的快速吸收。
实验表明，FST在推理任务中样本效率更高，灾难性遗忘更少，且在持续学习中表现优于传统强化学习。

📝 摘要（中文）

大型语言模型（LLM）通常通过更新模型参数（例如，通过强化学习）来适应下游任务。然而，参数更新迫使模型吸收特定任务的信息，可能导致灾难性遗忘和可塑性丧失。相比之下，使用固定LLM参数的上下文学习可以快速且廉价地适应特定任务的需求（例如，提示优化），但通常无法达到通过更新LLM参数所获得的性能提升。论文提出一种LLM的快速-慢速学习框架，将模型参数视为“慢速”权重，将优化的上下文视为“快速”权重。这些快速“权重”可以从文本反馈中学习以吸收特定任务的信息，同时允许慢速权重更接近基础模型并保持一般的推理能力。快速-慢速训练（FST）在推理任务中比仅慢速学习（强化学习）的样本效率高3倍，同时始终达到更高的性能渐近线。此外，FST训练的模型更接近基础LLM（KL散度降低高达70%），从而减少了灾难性遗忘。这种减少的漂移也保留了可塑性：在训练一个任务后，FST训练的模型比仅参数训练的模型更有效地适应后续任务。在任务领域动态变化的持续学习场景中，FST继续获取每个新任务，而仅参数强化学习则停滞不前。

🔬 方法详解

问题定义：现有大型语言模型在适应新任务时，主要通过更新模型参数或依赖上下文学习。参数更新容易导致灾难性遗忘，即模型忘记之前学习过的知识。而上下文学习虽然快速，但性能往往不如参数更新。因此，如何让LLM在适应新任务的同时，保持通用能力和避免灾难性遗忘是一个关键问题。

核心思路：论文的核心思路是将学习过程分解为快速和慢速两个部分。慢速学习对应于模型参数的更新，负责学习通用知识和推理能力。快速学习对应于上下文的学习，负责快速适应特定任务的需求。通过这种方式，模型可以在不显著改变参数的情况下，快速适应新任务，从而减少灾难性遗忘。

技术框架：快速-慢速学习框架（FST）包含两个主要部分：慢速权重（模型参数）和快速权重（优化的上下文）。慢速权重通过传统的训练方法（如强化学习）进行更新，以学习通用知识。快速权重通过优化上下文来实现，例如通过梯度下降或进化算法。在训练过程中，模型首先使用慢速权重进行推理，然后使用快速权重对上下文进行调整，以适应特定任务。

关键创新：该方法最重要的创新点在于将学习过程分解为快速和慢速两个部分，并分别使用不同的机制进行更新。与传统的参数更新方法相比，FST可以更好地平衡性能和可塑性，减少灾难性遗忘。与上下文学习相比，FST可以利用慢速权重学习到的通用知识，从而提高性能。

关键设计：关键设计包括：1) 如何选择合适的上下文表示；2) 如何优化上下文，例如使用梯度下降或进化算法；3) 如何平衡慢速权重和快速权重之间的影响，例如通过调整损失函数的权重。论文中使用了KL散度来衡量模型与原始模型的偏离程度，并将其作为正则化项加入损失函数中，以减少灾难性遗忘。

🖼️ 关键图片

📊 实验亮点

实验结果表明，FST在推理任务中比仅慢速学习（强化学习）的样本效率高3倍，同时始终达到更高的性能。FST训练的模型更接近基础LLM（KL散度降低高达70%），从而减少了灾难性遗忘。在持续学习场景中，FST能够持续学习新任务，而仅参数强化学习则停滞不前。

🎯 应用场景

该研究成果可应用于需要持续学习和适应新任务的LLM应用场景，例如智能客服、对话系统、机器人控制等。通过减少灾难性遗忘，模型可以更好地保持通用能力，并在不断变化的环境中提供更可靠的服务。此外，该方法还可以提高LLM在资源受限环境中的应用能力，因为快速学习部分不需要大量的计算资源。

📄 摘要（原文）

Large language models (LLMs) are trained for downstream tasks by updating their parameters (e.g., via RL). However, updating parameters forces them to absorb task-specific information, which can result in catastrophic forgetting and loss of plasticity. In contrast, in-context learning with fixed LLM parameters can cheaply and rapidly adapt to task-specific requirements (e.g., prompt optimization), but cannot by itself typically match the performance gains available through updating LLM parameters. There is no good reason for restricting learning to being in-context or in-weights. Moreover, humans also likely learn at different time scales (e.g., System 1 vs 2). To this end, we introduce a fast-slow learning framework for LLMs, with model parameters as "slow" weights and optimized context as "fast" weights. These fast "weights" can learn from textual feedback to absorb the task-specific information, while allowing slow weights to stay closer to the base model and persist general reasoning behaviors. Fast-Slow Training (FST) is up to 3x more sample-efficient than only slow learning (RL) across reasoning tasks, while consistently reaching a higher performance asymptote. Moreover, FST-trained models remain closer to the base LLM (up to 70% less KL divergence), resulting in less catastrophic forgetting than RL-training. This reduced drift also preserves plasticity: after training on one task, FST trained models adapt more effectively to a subsequent task than parameter-only trained models. In continual learning scenarios, where task domains change on the fly, FST continues to acquire each new task while parameter-only RL stalls.

Learning, Fast and Slow: Towards LLMs That Adapt Continually

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理