LoRAMoE: Alleviate World Knowledge Forgetting in Large Language Models via MoE-Style Plugin

📄 arXiv: 2312.09979v4 📥 PDF

作者: Shihan Dou, Enyu Zhou, Yan Liu, Songyang Gao, Jun Zhao, Wei Shen, Yuhao Zhou, Zhiheng Xi, Xiao Wang, Xiaoran Fan, Shiliang Pu, Jiang Zhu, Rui Zheng, Tao Gui, Qi Zhang, Xuanjing Huang

分类: cs.CL

发布日期: 2023-12-15 (更新: 2024-03-08)

备注: 14 pages, 7 figures


💡 一句话要点

LoRAMoE:通过MoE风格插件缓解大语言模型中的世界知识遗忘

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 世界知识 知识遗忘 低秩适配器 混合专家 指令微调 持续学习 参数高效性

📋 核心要点

  1. 大规模指令微调虽能提升LLM性能,但可能导致模型遗忘已有的世界知识。
  2. LoRAMoE通过引入MoE风格的LoRA插件,使部分LoRA专注于利用世界知识,缓解遗忘。
  3. 实验表明,LoRAMoE在提升下游任务性能的同时,有效保持了LLM的世界知识。

📝 摘要(中文)

监督微调(SFT)是大语言模型(LLMs)的关键步骤,使其能够与人类指令对齐并增强其在下游任务中的能力。大幅增加指令数据是使模型与更广泛的下游任务对齐或显著提高其在特定任务上的性能的直接解决方案。然而,我们发现大规模增加指令数据可能会损害LLMs先前存储的世界知识。为了应对这一挑战,我们提出了LoRAMoE,这是一种新颖的框架,它引入了多个低秩适配器(LoRA),并使用路由器网络将它们集成在一起,类似于混合专家(MoE)的插件版本。它冻结了骨干模型,并强制一部分LoRA专注于利用世界知识来解决下游任务,以减轻世界知识边缘的遗忘。实验结果表明,随着指令数据的增加,LoRAMoE可以显著提高处理下游任务的能力,同时保持LLM中存储的世界知识。

🔬 方法详解

问题定义:论文旨在解决大规模指令微调过程中,大语言模型(LLM)出现的世界知识遗忘问题。现有方法在追求下游任务性能提升时,往往忽略了对模型原有知识的保持,导致模型在一些需要世界知识的任务上表现下降。

核心思路:论文的核心思路是利用混合专家(MoE)的思想,引入多个低秩适配器(LoRA),并设计一个路由网络来控制这些LoRA的使用。通过这种方式,一部分LoRA可以专门负责利用和保持世界知识,而另一部分LoRA则专注于提升下游任务的性能。

技术框架:LoRAMoE框架包含以下几个主要模块:1) 冻结的骨干LLM模型;2) 多个LoRA模块,每个LoRA负责学习不同的知识或技能;3) 一个路由网络,根据输入选择激活哪些LoRA模块。在训练过程中,骨干模型保持不变,只训练LoRA模块和路由网络。

关键创新:LoRAMoE的关键创新在于将MoE的思想应用于LoRA适配器,并将其作为一个插件集成到现有的LLM中。这种方法既可以利用LoRA的参数高效性,又可以利用MoE的专家分工特性,从而在提升下游任务性能的同时,保持模型的世界知识。与直接微调整个模型相比,LoRAMoE更加高效且不易导致灾难性遗忘。

关键设计:LoRAMoE的关键设计包括:1) LoRA模块的数量和维度;2) 路由网络的结构和训练方式;3) 损失函数的设计,需要平衡下游任务的性能和世界知识的保持。具体的参数设置和网络结构需要根据具体的任务和数据集进行调整。论文中可能使用了特定的正则化方法来鼓励LoRA模块之间的差异性,从而实现更好的专家分工。

📊 实验亮点

实验结果表明,随着指令数据的增加,LoRAMoE在提高下游任务性能的同时,显著优于传统的微调方法,能够更好地保持LLM中存储的世界知识。具体的性能提升数据和对比基线需要在论文中查找,但总体趋势是LoRAMoE在知识保持方面具有明显优势。

🎯 应用场景

LoRAMoE可应用于各种需要持续学习和知识保持的大语言模型应用场景,例如智能客服、知识问答、内容生成等。该方法能够帮助模型在不断学习新知识的同时,避免遗忘已有的世界知识,从而提高模型的整体性能和可靠性。未来,LoRAMoE可以进一步扩展到多模态模型和更复杂的任务中。

📄 摘要(原文)

Supervised fine-tuning (SFT) is a crucial step for large language models (LLMs), enabling them to align with human instructions and enhance their capabilities in downstream tasks. Increasing instruction data substantially is a direct solution to align the model with a broader range of downstream tasks or notably improve its performance on a specific task. However, we find that large-scale increases in instruction data can damage the world knowledge previously stored in LLMs. To address this challenge, we propose LoRAMoE, a novelty framework that introduces several low-rank adapters (LoRA) and integrates them by using a router network, like a plugin version of Mixture of Experts (MoE). It freezes the backbone model and forces a portion of LoRAs to focus on leveraging world knowledge to solve downstream tasks, to alleviate world knowledge-edge forgetting. Experimental results show that, as the instruction data increases, LoRAMoE can significantly improve the ability to process downstream tasks, while maintaining the world knowledge stored in the LLM.