ELDER: Enhancing Lifelong Model Editing with Mixture-of-LoRA

📄 arXiv: 2408.11869v3 📥 PDF

作者: Jiaang Li, Quan Wang, Zhongnan Wang, Yongdong Zhang, Zhendong Mao

分类: cs.CL, cs.AI, cs.LG

发布日期: 2024-08-19 (更新: 2025-01-14)

备注: Accepted by AAAI-25

🔗 代码/项目: GITHUB


💡 一句话要点

ELDER:利用混合LoRA增强终身模型编辑能力,解决知识遗忘问题。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 终身学习 模型编辑 知识更新 LoRA 路由器网络

📋 核心要点

  1. 现有模型编辑方法在终身学习场景中存在严重的知识遗忘问题,无法有效处理连续的知识更新。
  2. ELDER通过混合LoRA和路由器网络,建立数据与适配器之间的连续关联,提升编辑的鲁棒性和泛化能力。
  3. 实验表明,ELDER在GPT-2 XL和LLaMA2-7B上优于现有方法,同时保持了模型在下游任务中的通用能力。

📝 摘要(中文)

大型语言模型(LLMs)需要模型编辑来高效地更新特定知识并避免事实错误。大多数模型编辑方法仅为单次使用而设计,导致在终身编辑场景中出现显著的遗忘效应,即随着时间的推移进行连续编辑。以往的方法通过冻结原始参数并为每次知识更新离散地分配新参数来管理连续编辑。然而,由于数据和参数之间的离散映射,这些方法缺乏对微小输入变化的鲁棒性。为了克服这一挑战,我们提出了ELDER,一种在数据和适配器之间创建连续关联的新方法。ELDER通过路由器网络集成多个LoRA,并经过训练以建立平滑的数据-适配器关联,从而增强了语义等价输入的编辑鲁棒性和泛化能力。为了确保包含相同知识的输入将由相同的LoRA处理,我们设计了一种新的损失来引导模型将LoRA分配与编辑知识联系起来。此外,我们提出了一种延迟机制,以在编辑后保留原始LLM的能力。在GPT-2 XL和LLaMA2-7B上的大量实验表明,ELDER有效地在终身环境中编辑模型,优于八个基线,同时表现出强大的可扩展性,并在下游任务中保留了LLM的通用能力。我们的代码可在https://github.com/JiaangL/ELDER获得。

🔬 方法详解

问题定义:论文旨在解决大型语言模型在终身学习场景下的知识编辑问题。现有方法主要通过冻结原始参数并为每次编辑分配新的参数,导致数据和参数之间存在离散映射,对输入的微小变化缺乏鲁棒性,并且容易产生知识遗忘。

核心思路:ELDER的核心思路是建立数据和适配器之间的连续关联。通过混合多个LoRA并使用路由器网络,使得相似的输入能够激活相似的LoRA组合,从而实现更平滑的知识更新和更好的泛化能力。这种连续的关联有助于减轻知识遗忘,并提高模型对输入变化的鲁棒性。

技术框架:ELDER的技术框架主要包括以下几个模块:1) 多个LoRA模块,用于知识的增量更新;2) 一个路由器网络,用于根据输入动态地选择LoRA组合;3) 一个知识对齐损失,用于引导LoRA的分配与编辑知识相关联;4) 一个延迟机制,用于保留原始LLM的能力。整体流程是,给定一个输入,路由器网络根据输入特征选择合适的LoRA组合,然后将这些LoRA的输出与原始LLM的输出进行融合,得到最终的编辑结果。

关键创新:ELDER的关键创新在于建立了数据和适配器之间的连续关联。与以往的离散分配方法不同,ELDER通过混合LoRA和路由器网络,使得模型能够根据输入的细微变化动态地调整适配器的选择,从而提高了编辑的鲁棒性和泛化能力。此外,知识对齐损失和延迟机制进一步提升了模型的性能。

关键设计:ELDER的关键设计包括:1) 路由器网络的结构和训练方式,需要保证能够有效地选择合适的LoRA组合;2) 知识对齐损失的设计,需要能够引导LoRA的分配与编辑知识相关联;3) 延迟机制的设计,需要在保留原始LLM能力的同时,有效地进行知识更新。具体的参数设置和网络结构等细节需要在实验中进行调整和优化。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,ELDER在GPT-2 XL和LLaMA2-7B上显著优于八个基线方法,在终身编辑场景中表现出更强的知识保留能力和泛化能力。具体而言,ELDER在编辑成功率、鲁棒性和下游任务性能等方面均取得了显著提升,证明了其有效性和优越性。

🎯 应用场景

ELDER具有广泛的应用前景,例如可以应用于持续学习的聊天机器人、知识图谱的动态更新、以及个性化推荐系统等领域。通过高效地更新模型中的知识,ELDER可以帮助构建更加智能、适应性更强的AI系统,提升用户体验和应用价值。未来,ELDER还可以扩展到其他类型的模型和任务中,进一步推动终身学习技术的发展。

📄 摘要(原文)

Large language models (LLMs) require model editing to efficiently update specific knowledge within them and avoid factual errors. Most model editing methods are solely designed for single-time use and result in a significant forgetting effect in lifelong editing scenarios, where sequential edits are conducted over time. Previous approaches manage sequential edits by freezing original parameters and discretely allocating new parameters for each knowledge update. However, these methods lack robustness to minor input variations due to the discrete mapping between data and parameters. To overcome this challenge, we propose ELDER, a novel approach to create a continuous association between data and adapters. ELDER integrates multiple LoRAs through a router network and is trained to establish a smooth data-adapter association, thereby enhancing the edit robustness and generalization of semantically equivalent inputs. To ensure inputs containing the same knowledge will be processed by the same LoRAs, we design a novel loss to guide the model link LoRA allocations with edit knowledge. Furthermore, we propose a deferral mechanism to retain the original LLM capabilities post-edit. Extensive experiments on GPT-2 XL and LLaMA2-7B demonstrate that ELDER effectively edits models in the lifelong setting, outperforming eight baselines while exhibiting strong scalability and preserving LLMs' general abilities on downstream tasks. Our code is available at https://github.com/JiaangL/ELDER.