NLoRA: Nyström-Initiated Low-Rank Adaptation for Large Language Models

📄 arXiv: 2502.14482v1 📥 PDF

作者: Chenlu Guo, Yuan Wu, Yi Chang

分类: cs.CL

发布日期: 2025-02-20


💡 一句话要点

提出NLoRA,利用Nyström方法加速低秩适应,提升大语言模型微调效率。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 参数高效微调 低秩适应 Nyström方法 大语言模型 模型初始化

📋 核心要点

  1. LoRA虽然是流行的参数高效微调方法,但收敛速度慢,且一些变体依赖SVD初始化,计算成本高。
  2. 论文提出NLoRA,利用Nyström方法初始化低秩矩阵,并引入中间矩阵SLoRA,以提高微调效率和效果。
  3. 实验表明,NLoRA在多个NLG和NLU任务上显著优于LoRA,且参数开销极小,IntTune进一步提升了效率。

📝 摘要(中文)

参数高效微调(PEFT)对于调整大型语言模型(LLM)至关重要,其中低秩适应(LoRA)是最流行的方法。然而,LoRA收敛速度慢,并且一些LoRA变体,如PiSSA,主要依赖奇异值分解(SVD)进行初始化,导致计算成本高昂。为了缓解这些问题,我们使用Nyström方法,该方法遵循三矩阵操作。首先,我们引入StructuredLoRA (SLoRA),它研究在低秩矩阵A和B之间添加一个小型的中间矩阵。其次,我们提出NyströmLoRA (NLoRA),它利用基于Nyström的SLoRA初始化来提高其有效性和效率。最后,我们提出IntermediateTune (IntTune),它探索仅在NLoRA的中间矩阵上进行微调,以进一步提高LLM效率。我们在五个自然语言生成(NLG)任务和八个自然语言理解(NLU)任务上评估了我们的方法。在GSM8K上,SLoRA和NLoRA分别实现了56.48%和57.70%的准确率,超过LoRA 33.52%和36.41%,且仅有367万个额外的可训练参数。IntTune在仅使用LoRA 1.25%的参数的情况下,将平均NLG性能提高了7.45%。这些结果证明了我们的方法在以最小的参数开销提高模型性能方面的效率和有效性。

🔬 方法详解

问题定义:现有的大语言模型微调方法,特别是LoRA,存在收敛速度慢和计算成本高的问题。一些LoRA的变体依赖于奇异值分解(SVD)进行初始化,这进一步增加了计算负担。因此,需要一种更高效的参数高效微调方法,能够在保持性能的同时,降低计算成本和加快收敛速度。

核心思路:论文的核心思路是利用Nyström方法来初始化低秩适应(LoRA)中的低秩矩阵。Nyström方法是一种用于矩阵低秩近似的技术,它可以通过选择原始矩阵的一小部分列来构建近似矩阵。通过使用Nyström方法初始化LoRA,可以加速收敛并降低计算成本。此外,论文还引入了一个中间矩阵,进一步提升了模型的性能。

技术框架:该方法主要包含三个部分:StructuredLoRA (SLoRA),NyströmLoRA (NLoRA) 和 IntermediateTune (IntTune)。SLoRA在LoRA的低秩矩阵A和B之间添加了一个小的中间矩阵。NLoRA使用Nyström方法初始化SLoRA的参数,以提高效率。IntTune则专注于仅微调NLoRA的中间矩阵,以进一步提高效率。整体流程是先使用Nyström方法初始化SLoRA,然后可以选择只微调中间矩阵。

关键创新:该方法最重要的技术创新点在于将Nyström方法引入到LoRA的初始化过程中。与传统的随机初始化或基于SVD的初始化方法相比,Nyström初始化能够更好地捕捉原始权重矩阵的结构信息,从而加速收敛并提高性能。此外,引入中间矩阵也是一个创新点,它允许模型学习更复杂的特征表示。

关键设计:Nyström方法的具体实现包括选择合适的landmark points(即用于构建近似矩阵的列),以及计算相应的权重矩阵。中间矩阵的大小是一个关键参数,需要根据具体的任务和数据集进行调整。损失函数采用标准的交叉熵损失函数,优化器采用AdamW。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,NLoRA在GSM8K数据集上取得了显著的性能提升,准确率达到57.70%,超过LoRA 36.41%,同时仅增加了367万个可训练参数。IntTune方法在平均NLG性能上超过LoRA 7.45%,且仅使用了LoRA 1.25%的参数。这些数据充分证明了NLoRA在参数效率和性能提升方面的优势。

🎯 应用场景

该研究成果可广泛应用于各种需要对大型语言模型进行微调的场景,例如特定领域的文本生成、对话系统、情感分析等。通过NLoRA,可以在资源有限的情况下,高效地定制化LLM,降低了LLM的应用门槛,加速了LLM在各行业的落地。

📄 摘要(原文)

Parameter-efficient fine-tuning (PEFT) is essential for adapting large language models (LLMs), with low-rank adaptation (LoRA) being the most popular approach. However, LoRA suffers from slow convergence, and some recent LoRA variants, such as PiSSA, primarily rely on Singular Value Decomposition (SVD) for initialization, leading to expensive computation. To mitigate these problems, we use the Nyström method, which follows a three-matrix manipulation. We first introduce StructuredLoRA (SLoRA), which investigates adding a small intermediate matrix between the low-rank matrices A and B. Secondly, we propose NyströmLoRA (NLoRA), which leverages Nyström-based initialization for SLoRA to improve its effectiveness and efficiency. Finally, we propose IntermediateTune (IntTune), which explores fine-tuning exclusively on the intermediate matrix of NLoRA to further boost LLM efficiency. We evaluate our methods on five natural language generation (NLG) tasks and eight natural language understanding (NLU) tasks. On GSM8K, SLoRA and NLoRA achieve accuracies of 56.48% and 57.70%, surpassing LoRA by 33.52% and 36.41%, with only 3.67 million additional trainable parameters. IntTune improves average NLG performance over LoRA by 7.45% while using only 1.25% of its parameters. These results demonstrate the efficiency and effectiveness of our approach in enhancing model performance with minimal parameter overhead.