CURLoRA: Stable LLM Continual Fine-Tuning and Catastrophic Forgetting Mitigation

📄 arXiv: 2408.14572v1 📥 PDF

作者: Muhammad Fawi

分类: cs.LG, cs.AI, cs.CL

发布日期: 2024-08-26

备注: Code available at https://github.com/MNoorFawi/curlora

DOI: 10.5281/zenodo.12730055


💡 一句话要点

CURLoRA:利用CUR分解和低秩适应,稳定LLM的持续微调并缓解灾难性遗忘

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 持续学习 灾难性遗忘 低秩适应 CUR分解

📋 核心要点

  1. 大型语言模型在持续学习中面临灾难性遗忘问题,且微调需要大量计算资源。
  2. CURLoRA利用CUR分解选择重要参数,并使用反向概率进行正则化,稳定模型。
  3. 实验表明,CURLoRA在减少遗忘的同时,保持了任务准确性,并降低了参数量。

📝 摘要(中文)

本文提出了一种名为CURLoRA的新方法,用于微调大型语言模型(LLM)。该方法在低秩适应(LoRA)的背景下利用CUR矩阵分解。CURLoRA旨在解决LLM微调中的两个关键挑战:缓解持续学习过程中的灾难性遗忘,并减少可训练参数的数量。我们对CUR分解过程进行了一项独特的修改,即使用反向概率进行列和行的选择,这起到了一种隐式的正则化作用,并将U矩阵初始化为零矩阵,并且只对其进行微调。通过在多个数据集上的实验证明,CURLoRA在缓解灾难性遗忘方面优于标准LoRA。它在跨任务中保持了模型的稳定性和性能,同时显著减少了可训练参数的数量。我们的结果表明,与持续微调中的LoRA相比,CURLoRA实现了非常好且稳定的任务准确性,同时保持了基础模型的困惑度分数不变,尤其是在数据有限的情况下。

🔬 方法详解

问题定义:大型语言模型(LLM)在持续学习场景中,会遇到灾难性遗忘的问题,即在学习新任务时,会忘记之前学习过的任务。此外,直接微调整个LLM需要大量的计算资源。LoRA虽然减少了可训练参数,但在持续学习中仍然存在遗忘问题。

核心思路:CURLoRA的核心思路是利用CUR矩阵分解,选择对模型性能影响最大的参数进行微调,从而减少可训练参数的数量。同时,通过修改CUR分解过程,使用反向概率进行列和行的选择,实现隐式的正则化,以缓解灾难性遗忘。只微调U矩阵进一步降低了计算成本。

技术框架:CURLoRA基于LoRA框架,主要包含以下几个阶段:1) 使用CUR分解选择LoRA中的重要矩阵;2) 使用反向概率进行列和行的选择,以实现隐式正则化;3) 初始化U矩阵为零矩阵,并只对其进行微调;4) 在持续学习场景中,依次对每个任务进行微调。

关键创新:CURLoRA最重要的技术创新点在于对CUR分解过程的修改。传统的CUR分解通常使用概率分布来选择列和行,而CURLoRA使用反向概率,即选择那些在原始矩阵中贡献较小的列和行。这种选择方式可以看作是一种隐式的正则化,有助于模型更好地泛化到新的任务,并减少对先前任务的遗忘。此外,只微调U矩阵也是一个创新点,进一步降低了计算成本。

关键设计:CURLoRA的关键设计包括:1) 使用反向概率进行列和行的选择,具体实现方式未知;2) 初始化U矩阵为零矩阵,并只对其进行微调;3) CUR分解的具体实现细节未知;4) 损失函数与LoRA保持一致,具体形式未知。

📊 实验亮点

实验结果表明,CURLoRA在缓解灾难性遗忘方面优于标准LoRA。具体来说,CURLoRA在持续学习多个任务后,能够保持较高的任务准确性,同时保持基础模型的困惑度分数不变。在数据有限的情况下,CURLoRA的优势更加明显。具体的性能提升数据未知。

🎯 应用场景

CURLoRA可应用于各种需要持续学习的场景,例如:对话系统、机器翻译、文本摘要等。它可以帮助模型在不断学习新知识的同时,保持对旧知识的记忆,从而提高模型的整体性能和用户体验。该方法尤其适用于资源受限的场景,例如移动设备或边缘计算设备。

📄 摘要(原文)

This paper introduces CURLoRA, a novel approach to fine-tuning large language models (LLMs) that leverages CUR matrix decomposition in the context of Low-Rank Adaptation (LoRA). Our method addresses two critical challenges in LLM fine-tuning: mitigating catastrophic forgetting during continual learning and reducing the number of trainable parameters. We propose a unique modification to the CUR decomposition process, utilizing inverted probabilities for column and row selection which acts as an implicit regularization, and initializing the $U$ matrix as a zero matrix, and only fine-tuning it. We demonstrate through experiments on multiple datasets that CURLoRA outperforms standard LoRA in mitigating catastrophic forgetting. It maintains model stability and performance across tasks while significantly reducing the number of trainable parameters. Our results show that CURLoRA achieves very good and stable task accuracy while maintaining base model's perplexity scores fixed compared to LoRA upon continual fine-tuning, particularly in scenarios with limited data.