Sculpting Subspaces: Constrained Full Fine-Tuning in LLMs for Continual Learning
作者: Nikhil Shivakumar Nayak, Krishnateja Killamsetty, Ligong Han, Abhishek Bhandwaldar, Prateek Chanda, Kai Xu, Hao Wang, Aldo Pareja, Oleg Silkin, Mustafa Eyceoz, Akash Srivastava
分类: cs.LG, cs.AI, cs.CL, math.PR, stat.ML
发布日期: 2025-04-09
备注: 25 pages, 13 figures, 6 tables
💡 一句话要点
提出基于自适应SVD的约束全参数微调方法,解决LLM持续学习中的灾难性遗忘问题。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 持续学习 灾难性遗忘 大型语言模型 奇异值分解 参数微调 正交约束 自适应学习
📋 核心要点
- 现有LLM持续学习方法依赖低秩更新,限制模型表达能力并引入额外参数,导致可扩展性问题和灾难性遗忘。
- 提出基于自适应SVD的约束全参数微调方法,动态识别任务特定子空间,约束更新方向,最小化任务间干扰。
- 实验表明,该方法在多种任务上达到SOTA,平均准确率提升高达7%,并有效保持了模型通用能力和安全性。
📝 摘要(中文)
大型语言模型(LLM)中的持续学习容易发生灾难性遗忘,即适应新任务会显著降低先前学习任务的性能。现有方法通常依赖于低秩、参数高效的更新,这限制了模型的表达能力,并为每个任务引入额外的参数,导致可扩展性问题。为了解决这些限制,我们提出了一种新颖的持续全参数微调方法,该方法利用自适应奇异值分解(SVD)。我们的方法动态地识别特定于任务的低秩参数子空间,并约束更新与先前任务相关的关键方向正交,从而有效地最小化干扰,而无需额外的参数开销或存储先前任务的梯度。我们在标准持续学习基准上,使用编码器-解码器(T5-Large)和仅解码器(LLaMA-2 7B)模型,对我们的方法进行了广泛的评估,涵盖了包括分类、生成和推理在内的各种任务。实验结果表明,我们的方法实现了最先进的结果,平均准确率比最近的基线(如O-LoRA)高出高达7%,并且通过将遗忘降低到几乎可以忽略不计的水平,显著地保持了模型的一般语言能力、指令遵循准确性和安全性。我们的自适应SVD框架有效地平衡了模型的可塑性和知识保留,为大型语言模型中的持续学习场景提供了一种实用、理论上有根据且计算上可扩展的解决方案。
🔬 方法详解
问题定义:论文旨在解决大型语言模型在持续学习过程中出现的灾难性遗忘问题。现有方法,如低秩适应(LoRA)虽然参数效率高,但限制了模型的表达能力,并且需要为每个新任务引入额外的参数,导致存储和计算成本随任务数量线性增长。此外,这些方法在缓解灾难性遗忘方面的效果有限,无法充分保留先前学习的知识。
核心思路:论文的核心思路是利用自适应奇异值分解(SVD)动态地识别并约束模型参数更新的子空间。通过将更新限制在与先前任务相关的“关键方向”正交的子空间中,可以有效地减少新任务对先前任务知识的干扰,从而缓解灾难性遗忘。这种方法允许对整个模型进行微调,充分利用模型的表达能力,同时避免了为每个任务引入额外参数的需要。
技术框架:该方法主要包含以下几个阶段:1) 任务特定子空间识别:使用自适应SVD分解模型参数,识别对当前任务最重要的低秩子空间。2) 正交约束:计算先前任务的关键方向(例如,梯度方向),并约束当前任务的参数更新与这些方向正交。这可以通过投影操作实现,确保更新不会显著改变先前任务的性能。3) 全参数微调:在约束的子空间内,对整个模型进行微调,以适应新任务。
关键创新:该方法最重要的创新在于其自适应SVD框架,它能够动态地识别任务特定的低秩子空间,并约束参数更新以避免干扰先前任务。与现有方法相比,该方法无需为每个任务引入额外参数,并且能够更有效地利用模型的表达能力。此外,该方法不需要存储先前任务的梯度,降低了存储成本。
关键设计:自适应SVD分解是关键。具体来说,对于每一层,计算其权重矩阵的SVD,并选择前k个奇异值和对应的奇异向量,其中k是根据任务的重要性动态调整的。正交约束通过将梯度投影到与先前任务的关键方向正交的子空间来实现。损失函数通常是标准交叉熵损失,但可以根据具体任务进行调整。没有特别的网络结构修改,可以应用于各种LLM架构,如T5和LLaMA。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在标准持续学习基准上取得了显著的性能提升,平均准确率比O-LoRA等基线方法高出高达7%。更重要的是,该方法能够有效保持模型的一般语言能力、指令遵循准确性和安全性,将遗忘降低到几乎可以忽略不计的水平。这些结果表明,该方法在平衡模型的可塑性和知识保留方面取得了显著的成功。
🎯 应用场景
该研究成果可应用于需要持续学习新知识的LLM,例如智能客服、对话系统、知识库问答等。这些应用场景需要模型能够不断适应新的用户需求和信息,同时保持对先前知识的掌握。该方法能够有效缓解灾难性遗忘,提高模型在动态环境中的性能和可靠性,具有重要的实际应用价值。
📄 摘要(原文)
Continual learning in large language models (LLMs) is prone to catastrophic forgetting, where adapting to new tasks significantly degrades performance on previously learned ones. Existing methods typically rely on low-rank, parameter-efficient updates that limit the model's expressivity and introduce additional parameters per task, leading to scalability issues. To address these limitations, we propose a novel continual full fine-tuning approach leveraging adaptive singular value decomposition (SVD). Our method dynamically identifies task-specific low-rank parameter subspaces and constrains updates to be orthogonal to critical directions associated with prior tasks, thus effectively minimizing interference without additional parameter overhead or storing previous task gradients. We evaluate our approach extensively on standard continual learning benchmarks using both encoder-decoder (T5-Large) and decoder-only (LLaMA-2 7B) models, spanning diverse tasks including classification, generation, and reasoning. Empirically, our method achieves state-of-the-art results, up to 7% higher average accuracy than recent baselines like O-LoRA, and notably maintains the model's general linguistic capabilities, instruction-following accuracy, and safety throughout the continual learning process by reducing forgetting to near-negligible levels. Our adaptive SVD framework effectively balances model plasticity and knowledge retention, providing a practical, theoretically grounded, and computationally scalable solution for continual learning scenarios in large language models.