Continual Gradient Low-Rank Projection Fine-Tuning for LLMs

📄 arXiv: 2507.02503v1 📥 PDF

作者: Chenxu Wang, Yilin Lyu, Zicheng Sun, Liping Jing

分类: cs.LG, cs.AI, cs.CE

发布日期: 2025-07-03

备注: 15 pages, 6 figures, accepted by ACL 2025 main

🔗 代码/项目: GITHUB


💡 一句话要点

提出GORP,通过梯度低秩投影微调LLM,解决持续学习中的效率与表达力权衡问题。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 持续学习 低秩适应 梯度投影 微调 灾难性遗忘 参数效率

📋 核心要点

  1. 现有LLM持续微调方法在效率和表达能力上存在权衡,LoRA等方法虽高效但表达能力受限。
  2. GORP通过结合全参数和低秩参数,在低秩梯度子空间内联合更新,扩展优化空间并缓解灾难性遗忘。
  3. 实验结果表明,GORP在持续学习任务上优于现有方法,展现了其优越的性能。

📝 摘要(中文)

大型语言模型(LLM)的持续微调面临效率和表达力之间的权衡。低秩适应(LoRA)虽然高效,但由于其低秩特性和对显式参数约束的依赖,限制了模型学习新任务和迁移知识的能力。我们提出了一种用于持续学习的GORP(梯度低秩投影)方法,这是一种新颖的训练策略,通过协同结合全参数和低秩参数,并在统一的低秩梯度子空间内联合更新,从而克服了这些限制。GORP在保持效率的同时扩展了优化空间,并减轻了灾难性遗忘。在持续学习基准上的大量实验表明,与现有的最先进方法相比,GORP具有卓越的性能。代码可在https://github.com/Wcxwcxw/GORP 获取。

🔬 方法详解

问题定义:论文旨在解决大型语言模型在持续学习场景下,使用低秩微调方法(如LoRA)时,模型表达能力受限,无法有效学习新任务和迁移知识的问题。现有方法在效率和表达能力之间存在权衡,无法同时保证微调效率和模型性能。

核心思路:GORP的核心思路是将全参数和低秩参数协同结合,并在一个统一的低秩梯度子空间内进行联合更新。通过这种方式,既能保持微调的效率,又能扩展模型的优化空间,从而提升模型学习新任务和迁移知识的能力,并减轻灾难性遗忘。

技术框架:GORP的整体框架包含以下几个关键部分:首先,模型同时维护全参数和低秩参数;其次,在训练过程中,计算全参数的梯度;然后,将全参数的梯度投影到低秩子空间;最后,使用投影后的梯度同时更新全参数和低秩参数。这种联合更新的方式使得模型能够在低秩约束下,充分利用全参数的信息。

关键创新:GORP最重要的创新点在于其梯度低秩投影的联合更新策略。与传统的低秩微调方法不同,GORP不是直接约束参数的秩,而是约束梯度的秩。这种方式允许模型在更大的参数空间中进行探索,从而提升模型的表达能力。此外,GORP还通过联合更新全参数和低秩参数,实现了信息在两者之间的有效传递。

关键设计:GORP的关键设计包括:1) 如何选择合适的低秩子空间,这通常涉及到对梯度进行奇异值分解(SVD)或类似的降维操作;2) 如何平衡全参数和低秩参数的更新,这可能需要引入一些权重参数或正则化项;3) 如何选择合适的学习率和优化器,以保证训练的稳定性和收敛速度。具体的损失函数设计需要根据具体的任务进行调整,但通常会包含一个交叉熵损失和一个正则化项,以防止过拟合。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,GORP在多个持续学习基准测试中取得了显著的性能提升,超越了现有的最先进方法。具体的性能数据需要在论文中查找,但总体趋势是GORP在保持较高效率的同时,显著提升了模型的学习能力和泛化能力,有效缓解了灾难性遗忘问题。

🎯 应用场景

GORP方法可应用于各种需要持续学习的场景,例如:在线客服机器人,可以不断学习新的对话技巧和服务知识;智能推荐系统,可以根据用户不断变化的兴趣进行调整;自动驾驶系统,可以不断适应新的交通规则和路况。该研究有助于提升LLM在实际应用中的适应性和鲁棒性。

📄 摘要(原文)

Continual fine-tuning of Large Language Models (LLMs) is hampered by the trade-off between efficiency and expressiveness. Low-Rank Adaptation (LoRA) offers efficiency but constrains the model's ability to learn new tasks and transfer knowledge due to its low-rank nature and reliance on explicit parameter constraints. We propose GORP (Gradient LOw Rank Projection) for Continual Learning, a novel training strategy that overcomes these limitations by synergistically combining full and low-rank parameters and jointly updating within a unified low-rank gradient subspace. GORP expands the optimization space while preserving efficiency and mitigating catastrophic forgetting. Extensive experiments on continual learning benchmarks demonstrate GORP's superior performance compared to existing state-of-the-art approaches. Code is available at https://github.com/Wcxwcxw/GORP.