CRAFT: Forgetting-Aware Intervention-Based Adaptation for Continual Learning

📄 arXiv: 2605.05732v2 📥 PDF

作者: Md Anwar Hossen, Fatema Siddika, Juan Pablo Munoz, Tanya Roosta, Ali Jannesari

分类: cs.LG, cs.AI

发布日期: 2026-05-07 (更新: 2026-05-08)

备注: 24 pages


💡 一句话要点

提出CRAFT框架:通过基于遗忘感知的表示空间干预实现大语言模型持续学习

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 持续学习 大语言模型 灾难性遗忘 参数高效微调 低秩干预 表示学习 KL散度

📋 核心要点

  1. 现有LLM微调方法在处理多任务序列时,参数更新往往破坏原有知识,导致严重的灾难性遗忘问题。
  2. CRAFT通过学习隐藏表示的低秩干预,而非直接修改模型权重,实现了知识的增量式积累与保护。
  3. 实验证明CRAFT在多基准测试中显著优于LoRA等方法,且在不同任务顺序下表现出极强的鲁棒性。

📝 摘要(中文)

大语言模型(LLMs)虽可通过微调获取新能力,但持续适应过程常导致灾难性遗忘。本文提出CRAFT,一种通过学习隐藏表示的低秩干预而非直接更新模型权重来避免遗忘的持续学习框架。CRAFT包含三个阶段:首先,基于输出分布散度将任务路由至相似任务组;其次,利用KL散度对齐组内先验状态进行微调,从而直接控制遗忘并确定收敛;最后,利用相同的KL信号将更新任务的干预合并至共享表示中。该设计通过统一的KL目标整合了路由、正则化与合并机制。实验表明,CRAFT在多个基准测试和模型规模下,性能优于基于LoRA的强基线方法,且对任务顺序具有鲁棒性。研究证明,在输出空间散度引导下控制表示空间的适应,是实现LLM持续学习的一种可扩展且原则性的方法。

🔬 方法详解

问题定义:论文旨在解决大语言模型在持续学习(Continual Learning)过程中,因参数更新导致的灾难性遗忘问题。现有基于LoRA等参数高效微调(PEFT)的方法虽然减少了计算量,但仍难以在长序列任务中保持旧任务的性能。

核心思路:CRAFT的核心思想是将适应过程从权重空间转移到表示空间。通过对隐藏层进行低秩干预,模型可以在不改变原始权重的前提下学习新任务,并通过KL散度约束确保新旧任务表示的一致性。

技术框架:框架分为三个阶段:1. 任务路由:根据输出分布散度将当前任务分配至相似任务组;2. 约束微调:以组内先验状态为基准,通过KL散度控制遗忘并引导模型收敛;3. 知识合并:将针对新任务的干预项合并至共享表示空间,实现知识的有效整合。

关键创新:最重要的创新在于将路由、正则化与合并统一在单一的KL散度目标函数下。这种设计使得模型能够动态感知遗忘风险,并以一种原则性的方式在表示空间进行干预,而非盲目更新参数。

关键设计:关键技术细节包括基于输出分布散度的任务相似度度量,以及利用KL散度作为统一的优化信号。该方法通过低秩干预矩阵对隐藏表示进行线性变换,有效平衡了新知识获取与旧知识保持之间的权衡。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

CRAFT在多个主流LLM基准测试中表现优异,相较于LoRA等基线方法,在保持新任务高性能的同时,显著降低了灾难性遗忘的程度。实验数据表明,该方法在不同任务序列下均能保持稳定的性能增益,证明了其在处理复杂、长序列持续学习任务时的卓越鲁棒性与可扩展性。

🎯 应用场景

该研究适用于需要持续更新知识库的领域,如企业级客服机器人、医疗诊断辅助系统及法律文档分析。通过CRAFT,模型可以在不重新训练整个系统的情况下,高效吸收新领域知识,同时确保对既有专业知识的稳健记忆,极大地降低了模型维护成本与部署难度。

📄 摘要(原文)

Large language models (LLMs) can acquire new capabilities through fine-tuning, but continual adaptation often leads to catastrophic forgetting. We propose CRAFT, a continual learning framework that avoids updating model weights by instead learning low-rank interventions on hidden representations. CRAFT proceeds in three stages: it first routes each task to a group of similar tasks based on output-distribution divergence; it then fine-tunes the model using a Kullback-Leibler (KL) divergence against the group's prior state, which directly controls forgetting and determines convergence; finally, it merges interventions for the updated task into the shared representation using the same KL signal. This design unifies routing, regularization, and merging through a single KL-based objective. CRAFT improves overall performance and reduces forgetting compared to strong LoRA-based approaches across multiple benchmarks and model scales, while remaining robust to task ordering. These results suggest that controlling adaptation in representation space, guided by output-space divergence, provides a scalable and principled approach to continual learning in LLMs.