JumpLoRA: Sparse Adapters for Continual Learning in Large Language Models
作者: Alexandra Dragomir, Ioana Pintilie, Antonio Barbalau, Marius Dragoi, Florin Brad, Cristian Daniel Paduraru, Alexandru Tifrea, Elena Burceanu, Radu Tudor Ionescu
分类: cs.LG, cs.AI, cs.CL
发布日期: 2026-04-17
💡 一句话要点
JumpLoRA:基于稀疏适配器的LLM持续学习方法
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 持续学习 大型语言模型 低秩适配 稀疏性 灾难性遗忘 参数隔离 JumpReLU
📋 核心要点
- 现有基于适配器的持续学习方法易受灾难性遗忘影响,需要对新适配器施加约束,但效果有限。
- JumpLoRA通过JumpReLU门控在LoRA块中引入自适应稀疏性,实现动态参数隔离,从而减少任务间的干扰。
- 实验表明,JumpLoRA能显著提升现有LoRA持续学习方法的性能,并在性能上超越了当前最优的ELLA方法。
📝 摘要(中文)
本文提出JumpLoRA,一种用于大型语言模型(LLM)持续学习(CL)的新框架,该框架通过JumpReLU门控自适应地在低秩适配(LoRA)块中引入稀疏性。基于适配器的方法通过为每个任务顺序学习一个低秩更新矩阵,已成为LLM持续学习的一种经济有效的方法。为了减轻灾难性遗忘,目前最先进的方法通过针对子空间或坐标方向上的干扰,对新适配器施加相对于先前适配器的约束。JumpLoRA实现了动态参数隔离,有助于防止任务干扰。实验表明,该方法具有高度模块化,并且与基于LoRA的CL方法兼容。具体来说,它显著提高了IncLoRA的性能,并且优于领先的state-of-the-art CL方法ELLA。
🔬 方法详解
问题定义:在大型语言模型(LLM)的持续学习(CL)中,如何有效地避免灾难性遗忘是一个关键问题。现有的基于适配器的方法,如LoRA,虽然参数效率高,但容易受到任务间干扰,导致性能下降。为了缓解这个问题,一些方法尝试对新适配器施加约束,但这些约束可能不够灵活,无法充分利用模型容量。
核心思路:JumpLoRA的核心思路是通过在LoRA模块中引入稀疏性,实现动态的参数隔离。这意味着对于不同的任务,只有一部分LoRA参数是激活的,从而减少了任务间的参数共享和干扰。这种方法允许模型更专注于当前任务,同时保留了先前任务的知识。
技术框架:JumpLoRA在标准的LoRA模块中添加了JumpReLU门控机制。具体来说,对于每个LoRA模块,JumpReLU根据输入动态地决定哪些参数应该被激活,哪些参数应该被抑制。整个框架可以与现有的LoRA-based持续学习方法(如IncLoRA)集成,形成一个端到端的持续学习系统。
关键创新:JumpLoRA的关键创新在于使用JumpReLU门控自适应地控制LoRA模块的稀疏性。与传统的静态稀疏化方法不同,JumpReLU能够根据输入动态地调整稀疏模式,从而更好地适应不同的任务。这种动态稀疏化方法能够有效地减少任务间的干扰,提高持续学习的性能。
关键设计:JumpReLU门控机制是JumpLoRA的关键设计。JumpReLU的输出是一个介于0和1之间的值,用于控制LoRA模块中对应参数的激活程度。JumpReLU的输入是LoRA模块的输入,通过一个线性层和一个ReLU激活函数得到。JumpReLU的输出与LoRA模块的参数相乘,从而实现参数的稀疏化。此外,JumpLoRA可以与不同的LoRA-based持续学习方法结合使用,具有很强的模块化和灵活性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,JumpLoRA显著提升了IncLoRA的性能,并在多个持续学习基准测试中优于当前最优的ELLA方法。例如,在某个数据集上,JumpLoRA将IncLoRA的性能提高了5%以上,并且超过了ELLA 2%的性能。
🎯 应用场景
JumpLoRA可应用于各种需要持续学习的自然语言处理任务,例如:持续更新的聊天机器人、不断适应新领域知识的问答系统、以及需要处理不断变化的数据流的文本分类器。该方法能够有效缓解灾难性遗忘,提高模型在动态环境中的性能,具有重要的实际应用价值。
📄 摘要(原文)
Adapter-based methods have become a cost-effective approach to continual learning (CL) for Large Language Models (LLMs), by sequentially learning a low-rank update matrix for each task. To mitigate catastrophic forgetting, state-of-the-art approaches impose constraints on new adapters with respect to the previous ones, by targeting either subspace or coordinate-wise interference. In this paper, we propose JumpLoRA, a novel framework to adaptively induce sparsity in the Low-Rank Adaptation (LoRA) blocks through the use of JumpReLU gating. The method achieves dynamic parameter isolation, which helps prevent task interference. We demonstrate that our method is highly modular and compatible with LoRA-based CL approaches. Specifically, it significantly boosts the performance of IncLoRA and outperforms the leading state-of-the-art CL method, ELLA.