NoRA: Nested Low-Rank Adaptation for Efficient Fine-Tuning Large Models

📄 arXiv: 2408.10280v2 📥 PDF

作者: Cheng Lin, Lujun Li, Dezhi Li, Jie Zou, Wei Xue, Yike Guo

分类: cs.LG

发布日期: 2024-08-18 (更新: 2024-08-27)

备注: Work in progress, revisions ongoing


💡 一句话要点

提出嵌套低秩适配(NoRA),高效微调大型模型并提升性能。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 低秩适配 参数高效微调 大型模型 奇异值分解 嵌套结构

📋 核心要点

  1. 现有LoRA方法忽略预训练权重信息,微调参数量仍然较大,限制了其效率和灵活性。
  2. NoRA采用双层嵌套结构,利用奇异值分解(SVD)有效继承原始权重知识,并减少可调参数。
  3. 实验表明,NoRA在常识推理、视觉-语言模型微调和主题驱动生成等任务上优于LoRA及其变体。

📝 摘要(中文)

本文提出了一种新的参数高效微调方法,即嵌套低秩适配(NoRA),它扩展了低秩适配(LoRA)技术的能力。原始的LoRA忽略了预训练权重的继承,并且仍然需要微调大量参数。为了解决这些问题,NoRA采用了一种具有奇异值分解(SVD)的双层嵌套结构,有效地利用了原始矩阵知识,同时减少了可调参数。具体来说,NoRA冻结了外部LoRA权重,并利用内部LoRA设计,从而增强了对模型优化的控制。这种方法允许模型更精确地适应特定任务,同时保持紧凑的参数空间。通过冻结外部LoRA权重并使用内部LoRA设计,NoRA能够以紧凑的参数空间实现精确的任务适应。在包括大型语言模型的常识推理、视觉-语言模型微调和主题驱动生成等任务上的评估表明,NoRA优于LoRA及其变体。代码将在接受后发布。

🔬 方法详解

问题定义:现有LoRA方法在微调大型模型时,虽然减少了参数量,但忽略了预训练模型中蕴含的丰富知识,且微调的参数量仍然相对较大,导致效率不高,且可能影响模型的泛化能力。因此,需要一种更高效、更能利用预训练知识的微调方法。

核心思路:NoRA的核心思路是采用嵌套的低秩适配结构,即在LoRA的基础上再嵌套一层LoRA。外层LoRA负责捕获更一般的知识,并被冻结;内层LoRA负责针对特定任务进行精细调整。通过这种方式,NoRA既能利用预训练模型的知识,又能有效地减少可训练参数,从而提高微调效率和性能。

技术框架:NoRA的技术框架主要包括以下几个步骤:1) 对预训练模型的权重矩阵进行奇异值分解(SVD);2) 在原始权重矩阵的基础上,添加一个外层LoRA模块,该模块的权重被冻结;3) 在外层LoRA模块的基础上,再添加一个内层LoRA模块,该模块的权重是可训练的。整个框架采用端到端的方式进行训练。

关键创新:NoRA最重要的技术创新点在于其嵌套的低秩适配结构。与传统的LoRA方法相比,NoRA能够更好地利用预训练模型的知识,并减少可训练参数。此外,NoRA通过冻结外层LoRA的权重,进一步提高了微调的稳定性和效率。

关键设计:NoRA的关键设计包括:1) 外层LoRA和内层LoRA的秩的选择,需要根据具体的任务和数据集进行调整;2) 奇异值分解(SVD)的应用,用于初始化LoRA模块的权重;3) 损失函数的选择,通常采用交叉熵损失函数或类似的损失函数。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

NoRA在多个任务上取得了显著的性能提升。例如,在大型语言模型的常识推理任务上,NoRA优于LoRA及其变体。在视觉-语言模型微调任务和主题驱动生成任务上,NoRA也表现出优越的性能。这些实验结果表明,NoRA是一种有效的参数高效微调方法。

🎯 应用场景

NoRA具有广泛的应用前景,可应用于各种需要对大型模型进行微调的场景,例如自然语言处理、计算机视觉和语音识别等。尤其适用于资源受限的场景,例如移动设备或边缘计算设备,在这些场景下,高效的参数微调至关重要。NoRA的出现,降低了大型模型微调的成本,加速了AI技术在各行业的落地。

📄 摘要(原文)

In this paper, we introduce Nested Low-Rank Adaptation (NoRA), a novel approach to parameter-efficient fine-tuning that extends the capabilities of Low-Rank Adaptation (LoRA) techniques. Vanilla LoRA overlooks pre-trained weight inheritance and still requires fine-tuning numerous parameters. To addresses these issues, our NoRA adopts a dual-layer nested structure with Singular Value Decomposition (SVD), effectively leveraging original matrix knowledge while reducing tunable parameters. Specifically, NoRA freezes the outer LoRA weights and utilizes an inner LoRA design, providing enhanced control over model optimization. This approach allows the model to more precisely adapt to specific tasks while maintaining a compact parameter space. By freezing outer LoRA weights and using an inner LoRA design, NoRA enables precise task adaptation with a compact parameter space. Evaluations on tasks including commonsense reasoning with large language models, fine-tuning vision-language models, and subject-driven generation demonstrate NoRA's superiority over LoRA and its variants. Code will be released upon acceptance.