SECURA: Sigmoid-Enhanced CUR Decomposition with Uninterrupted Retention and Low-Rank Adaptation in Large Language Models

📄 arXiv: 2502.18168v4 📥 PDF

作者: Yuxuan Zhang

分类: cs.CL, cs.AI

发布日期: 2025-02-25 (更新: 2025-03-04)

备注: New work on PEFT for LLMs, introducing S-MagNorm and CABR-LoRA to enhance fine-tuning performance and knowledge retention. In v4, we renamed Sigmoid-based Magnitude Normalization to S-MagNorm for clarity and added a gradient comparison between SECURA and CABR-LoRA to highlight their contributions


💡 一句话要点

提出SECURA,通过Sigmoid增强的CUR分解LoRA,提升LLM微调性能并缓解灾难性遗忘。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 低秩适应 灾难性遗忘 持续学习 参数保留 Sigmoid归一化

📋 核心要点

  1. 完全微调大型语言模型计算成本高昂,且易发生灾难性遗忘,LoRA虽然降低了成本,但仍存在遗忘问题。
  2. SECURA通过引入Sigmoid增强的CUR分解LoRA和S-MagNorm归一化技术,增强参数保留,提升微调效率,缓解灾难性遗忘。
  3. 实验表明,SECURA在多个任务和模型上优于DoRA,并在持续学习中表现出卓越的知识保留能力,基本知识准确率超过70%。

📝 摘要(中文)

随着大型语言模型(LLMs)的快速发展,由于计算需求高,完全微调(FT)这些模型变得越来越不可行。此外,FT也增加了灾难性遗忘的风险。作为一种替代方案,提出了低秩适应(LoRA)。通过仅微调一小部分参数,LoRA实现了与FT相似的性能,同时显著降低了资源需求。然而,由于LoRA继承了FT的设计,灾难性遗忘的问题仍然存在。为了解决这些限制,我们提出了SECURA:Sigmoid增强的CUR分解LoRA,这是一种新型PEFT变体,旨在减轻灾难性遗忘,同时提高微调性能。我们的方法引入了一种新的归一化技术,即基于Sigmoid的幅度归一化(S-MagNorm),它增强了参数保留和微调效率。SECURA已在各种任务上进行了评估,包括数学问题解决(GSM8K)、复杂问答(CNNDM)、翻译(NewsDE)和复杂多项选择推理(LogiQA)。实验结果表明,在Gemma2 2B、Qwen2 1.5B、Qwen2 7B、Llama3 8B和Llama3.1 8B上,它在四个MCQ任务上的平均微调改进为3.59%,在五个QA任务上的平均微调改进为2.51%,优于DoRA。此外,SECURA展示了卓越的知识保留能力,在16项持续学习测试中实现了最先进的性能,并且与经验回放(ER)、顺序学习(SEQ)、EWC、I-LoRA和CUR-LoRA相比,在LLM的基本知识上保持了超过70%的准确率。

🔬 方法详解

问题定义:论文旨在解决大型语言模型微调过程中存在的灾难性遗忘问题,以及传统LoRA方法在知识保留方面的不足。现有方法在持续学习场景下,容易丢失先前学习到的知识,导致性能下降。

核心思路:论文的核心思路是通过增强参数的保留能力来缓解灾难性遗忘。具体而言,通过引入Sigmoid增强的CUR分解和S-MagNorm归一化技术,使得模型在微调过程中更加关注重要参数,并减少对原有知识的干扰。这样设计的目的是在提升新任务性能的同时,尽可能地保留模型已有的知识。

技术框架:SECURA方法基于LoRA框架,主要包含以下几个关键模块:1) CUR分解:用于选择重要的参数子集进行微调。2) Sigmoid增强:通过Sigmoid函数调整参数的重要性权重,突出重要参数。3) S-MagNorm归一化:对参数幅度进行归一化,进一步增强参数保留能力。整体流程是先进行CUR分解选择重要参数,然后使用Sigmoid函数增强这些参数的权重,最后通过S-MagNorm进行归一化,从而实现高效且稳定的微调。

关键创新:SECURA最重要的技术创新点在于S-MagNorm归一化技术和Sigmoid增强的CUR分解。S-MagNorm通过Sigmoid函数对参数幅度进行归一化,能够更有效地保留重要参数,并抑制不重要参数的更新。Sigmoid增强的CUR分解则能够选择更具代表性的参数子集进行微调,从而提高微调效率和性能。与现有方法的本质区别在于,SECURA更加注重参数的保留和重要性区分,从而在持续学习场景下表现出更好的知识保留能力。

关键设计:S-MagNorm归一化的具体实现方式是:首先计算每个参数的幅度,然后使用Sigmoid函数对幅度进行缩放,最后将参数除以缩放后的幅度。Sigmoid函数的参数需要根据具体任务进行调整,以达到最佳的参数保留效果。CUR分解的具体实现方式是:首先计算参数矩阵的CUR分解,然后选择分解后的重要行和列作为微调的参数子集。参数子集的大小需要根据计算资源和性能需求进行权衡。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SECURA在Gemma2 2B、Qwen2 1.5B、Qwen2 7B、Llama3 8B和Llama3.1 8B等多个模型上进行了评估,在四个多项选择题(MCQ)任务上的平均微调改进为3.59%,在五个问答(QA)任务上的平均微调改进为2.51%,优于DoRA。在16项持续学习测试中,SECURA实现了最先进的性能,并且与现有方法相比,在LLM的基本知识上保持了超过70%的准确率。

🎯 应用场景

SECURA可应用于各种需要持续学习和知识保留的场景,例如:智能客服、对话系统、推荐系统等。在这些场景中,模型需要不断学习新的知识,同时保持对原有知识的掌握。SECURA能够有效缓解灾难性遗忘,提高模型在持续学习场景下的性能,具有重要的实际应用价值和广阔的未来发展前景。

📄 摘要(原文)

With the rapid development of large language models (LLMs), fully fine-tuning (FT) these models is becoming increasingly infeasible due to high computational demands. Moreover, FT also increases the risk of catastrophic forgetting. As an alternative, Low-Rank Adaptation (LoRA) has been proposed. By fine-tuning only a small subset of parameters, LoRA achieves performance similar to FT while significantly reducing resource requirements. However, since LoRA inherits FT's design, the issue of catastrophic forgetting still remains. To address these limitations, we propose SECURA: Sigmoid-Enhanced CUR Decomposition LoRA, a novel PEFT variant designed to mitigate catastrophic forgetting while improving fine-tuning performance. Our method introduces a novel normalization technique, Sigmoid-based Magnitude Norm (S-MagNorm), which enhances parameter retention and fine-tuning efficiency. SECURA has been evaluated on a diverse range of tasks, including mathematical problem-solving (GSM8K), complex question-answering (CNNDM), translation (NewsDE), and complex multiple-choice reasoning (LogiQA). Experimental results demonstrate that it achieves an average fine-tuning improvement of 3.59% across four MCQ tasks and 2.51% across five QA tasks on Gemma2 2B, Qwen2 1.5B, Qwen2 7B, Llama3 8B, and Llama3.1 8B, outperforming DoRA. Additionally, SECURA demonstrates superior knowledge retention capabilities, achieving state-of-the-art performance in 16 continual learning tests and maintaining more than 70% accuracy on LLMs' basic knowledge compared to Experience Replay (ER), sequential learning (SEQ), EWC, I-LoRA, and CUR-LoRA.