Learning Attentional Mixture of LoRAs for Language Model Continual Learning
作者: Jialin Liu, Jianhua Wu, Jie Liu, Yutai Duan
分类: cs.CL
发布日期: 2024-09-29
备注: 12 pages, 5 figures
💡 一句话要点
提出AM-LoRA,通过注意力混合LoRA解决LLM持续学习中的灾难性遗忘问题。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 持续学习 大型语言模型 低秩适应 注意力机制 灾难性遗忘
📋 核心要点
- 现有LoRA微调LLM的持续学习方法易遭受灾难性遗忘,无法有效处理多任务序列。
- AM-LoRA通过注意力机制混合多个LoRA,自适应整合各LoRA知识,降低负面交互风险。
- 实验结果表明,AM-LoRA在持续学习基准上表现优异,验证了其有效性。
📝 摘要(中文)
本文提出了一种名为Attentional Mixture of LoRAs (AM-LoRA) 的LLM持续学习方法。该方法为一系列任务学习一系列LoRA,以持续学习来自不同任务的知识。AM-LoRA的核心在于设计了一种注意力机制作为知识混合模块,自适应地整合来自每个LoRA的信息。该注意力机制能够有效利用每个LoRA的独特贡献,同时减轻它们之间可能存在的负面交互风险,从而缓解灾难性遗忘。此外,还在学习过程中引入了L1范数,使注意力向量更加稀疏,促使模型倾向于选择少数高度相关的LoRA,而非集体聚合和加权所有LoRA,进一步减少相互干扰的影响。在持续学习基准上的实验结果表明了该方法的优越性。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)在持续学习场景下,使用低秩适应(LoRA)进行微调时出现的灾难性遗忘问题。现有方法在顺序学习多个任务时,容易忘记先前学习的知识,导致性能下降。LoRA虽然能有效降低微调参数量,但多个LoRA之间的相互干扰会加剧灾难性遗忘。
核心思路:论文的核心思路是利用注意力机制来动态地混合多个LoRA,从而在学习新任务时,能够选择性地利用先前任务的知识,并避免不同LoRA之间的负面干扰。通过学习每个LoRA的重要性权重,模型可以自适应地整合来自不同LoRA的信息,从而缓解灾难性遗忘。
技术框架:AM-LoRA方法包含以下主要模块:1) 为每个任务学习一个LoRA模块;2) 设计一个注意力机制模块,用于计算每个LoRA的重要性权重;3) 使用注意力权重对所有LoRA的输出进行加权求和,得到最终的输出。整个框架的目标是学习一系列LoRA以及一个注意力机制,使得模型能够在持续学习过程中保持较高的性能。
关键创新:AM-LoRA的关键创新在于引入了注意力机制作为知识混合模块。与直接叠加或平均多个LoRA不同,AM-LoRA能够根据输入动态地调整每个LoRA的权重,从而更好地利用不同LoRA的知识。此外,引入L1正则化约束注意力权重,鼓励模型选择少数几个重要的LoRA,进一步减少了LoRA之间的干扰。
关键设计:注意力机制采用标准的Scaled Dot-Product Attention结构。L1正则化系数是一个重要的超参数,需要根据具体任务进行调整。损失函数包括交叉熵损失和L1正则化损失两部分。在训练过程中,首先固定先前任务的LoRA,然后训练当前任务的LoRA和注意力机制。学习率和batch size等超参数也需要仔细调整。
🖼️ 关键图片
📊 实验亮点
实验结果表明,AM-LoRA在多个持续学习基准上优于现有的LoRA微调方法。例如,在某些任务上,AM-LoRA的性能提升超过5%。通过引入注意力机制和L1正则化,AM-LoRA能够有效地缓解灾难性遗忘,并在持续学习过程中保持较高的性能水平。实验结果验证了AM-LoRA的有效性和优越性。
🎯 应用场景
AM-LoRA适用于需要持续学习新任务的LLM应用场景,例如:智能客服、对话系统、机器翻译等。它可以帮助模型在不断学习新知识的同时,保持对先前知识的记忆,从而提高模型的泛化能力和鲁棒性。该方法在实际应用中具有重要的价值,可以降低模型维护成本,提高用户体验,并促进LLM在更多领域的应用。
📄 摘要(原文)
Fine-tuning large language models (LLMs) with Low-Rank adaption (LoRA) is widely acknowledged as an effective approach for continual learning for new tasks. However, it often suffers from catastrophic forgetting when dealing with multiple tasks sequentially. To this end, we propose Attentional Mixture of LoRAs (AM-LoRA), a continual learning approach tailored for LLMs. Specifically, AM-LoRA learns a sequence of LoRAs for a series of tasks to continually learn knowledge from different tasks. The key of our approach is that we devise an attention mechanism as a knowledge mixture module to adaptively integrate information from each LoRA. With the attention mechanism, AM-LoRA can efficiently leverage the distinctive contributions of each LoRA, while mitigating the risk of mutually negative interactions among them that may lead to catastrophic forgetting. Moreover, we further introduce $L1$ norm in the learning process to make the attention vector more sparse. The sparse constraints can enable the model to lean towards selecting a few highly relevant LoRAs, rather than aggregating and weighting all LoRAs collectively, which can further reduce the impact stemming from mutual interference. Experimental results on continual learning benchmarks indicate the superiority of our proposed method.