Continual Fine-Tuning of Large Language Models via Program Memory

📄 arXiv: 2605.13162v1 📥 PDF

作者: Hung Le, Svetha Venkatesh

分类: cs.LG

发布日期: 2026-05-13

备注: 18 page, preprint


💡 一句话要点

提出ProCL框架,通过程序记忆实现大语言模型在持续学习中的高效微调。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 持续学习 参数高效微调 低秩适应 程序记忆 灾难性遗忘

📋 核心要点

  1. 现有LoRA方法在持续学习中难以平衡快速适应新任务和保留旧知识,导致灾难性遗忘。
  2. ProCL框架受神经科学启发,利用程序记忆槽动态存储和检索LoRA适配器,实现局部适应和知识积累。
  3. 实验表明,ProCL在多种基准测试中优于其他持续LoRA策略,有效提升了知识保留能力。

📝 摘要(中文)

参数高效微调(PEFT),特别是低秩适应(LoRA),已成为在有限计算资源下调整大型语言模型(LLM)的标准方法。然而,在模型使用小数据集进行顺序更新的持续学习环境中,传统的LoRA更新难以平衡快速适应和知识保留。现有方法通常将低秩空间视为同质更新区域,缺乏调节短期更新随时间推移如何整合的机制。我们提出了一种带有程序记忆的持续LoRA框架,灵感来自神经科学中的互补学习系统。我们的方法,称为ProCL,将LoRA适配器组织成结构化的程序记忆槽,这些槽通过输入条件注意力动态检索。这实现了快速和局部的适应,鼓励相似的输入重用共享的适配器区域,同时为未来的数据保留未使用的容量。然后将这些槽与底层适配器结合,底层适配器维护一个分布式表示,逐渐积累跨任务的知识,以平衡可塑性和稳定性。我们的方法完全在LoRA参数化中运行,并且不产生额外的推理成本。在各种基准测试上的实验表明,与其他持续LoRA策略相比,ProCL在知识保留方面有所改进,并减少了灾难性遗忘。

🔬 方法详解

问题定义:在持续学习场景下,如何利用参数高效微调(PEFT)方法,特别是LoRA,来更新大型语言模型(LLM),同时避免灾难性遗忘,并保持良好的知识迁移能力。现有LoRA方法将低秩空间视为同质更新区域,缺乏对短期更新的有效管理和整合机制,导致模型在学习新任务时容易忘记旧任务的知识。

核心思路:借鉴神经科学中的互补学习系统(Complementary Learning Systems),引入程序记忆(Program Memory)的概念,将LoRA适配器组织成结构化的记忆槽,并通过输入条件注意力机制动态检索。这种方式允许模型根据输入选择性地激活相关的适配器,实现快速和局部的适应,同时为未来的数据保留未使用的容量。

技术框架:ProCL框架的核心是程序记忆模块,它由多个LoRA适配器槽组成。当输入数据到达时,一个注意力机制会根据输入与每个槽的关联程度,动态地选择激活哪些槽。被激活的槽的输出会与底层LoRA适配器的输出结合,共同作用于LLM。底层LoRA适配器负责维护一个分布式表示,逐渐积累跨任务的知识。整个框架在LoRA参数化中运行,不引入额外的推理成本。

关键创新:ProCL的关键创新在于引入了程序记忆的概念,并将其与LoRA适配器相结合。与传统的LoRA方法相比,ProCL能够更好地管理和整合短期更新,避免了灾难性遗忘,并提高了知识迁移能力。通过输入条件注意力机制,ProCL能够根据输入选择性地激活相关的适配器,实现快速和局部的适应。

关键设计:ProCL的关键设计包括:1) 程序记忆槽的数量和维度;2) 输入条件注意力机制的设计,例如使用余弦相似度或神经网络来计算输入与每个槽之间的关联程度;3) 如何将激活的槽的输出与底层LoRA适配器的输出结合,例如使用加权平均或门控机制;4) 如何更新程序记忆槽和底层LoRA适配器,例如使用梯度下降或动量优化算法。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,ProCL在多个持续学习基准测试中显著优于其他LoRA方法。例如,在某些任务上,ProCL的性能比基线方法提高了10%以上,并且能够有效减少灾难性遗忘。此外,ProCL在知识保留方面也表现出色,能够更好地利用先前学习的知识来解决新任务。

🎯 应用场景

ProCL框架可应用于各种需要持续学习的场景,例如:在线客服机器人,可以不断学习新的对话技巧和知识;智能助手,可以根据用户的使用习惯和反馈进行个性化调整;自动驾驶系统,可以不断学习新的驾驶场景和交通规则。该研究有助于提升LLM在动态环境中的适应性和鲁棒性。

📄 摘要(原文)

Parameter-Efficient Fine-Tuning (PEFT), particularly Low-Rank Adaptation (LoRA), has become a standard approach for adapting Large Language Models (LLMs) under limited compute. However, in continual settings where models are updated sequentially with small datasets, conventional LoRA updates struggle to balance rapid adaptation and knowledge retention. Existing methods typically treat the low-rank space as a homogeneous update region, lacking mechanisms to regulate how short-term updates are consolidated over time. We propose a continual LoRA framework with \textbf{Pro}gram memory, inspired by \textbf{C}omplementary \textbf{L}earning Systems in neuroscience. Our approach, dubbed \textbf{ProCL}, organizes LoRA adapters into structured program memory slots that are dynamically retrieved through input-conditioned attention. This enables rapid and localized adaptation, encouraging similar inputs to reuse shared adapter regions while reserving unused capacity for future data. The slots are then combined with the underlying adapter, which maintains a distributed representation that gradually accumulates knowledge across tasks to balance plasticity and stability. Our method operates entirely within the LoRA parameterization and incurs no additional inference cost. Experiments on diverse benchmarks demonstrate improved retention and reduced catastrophic forgetting over other continual LoRA strategies.