LoRA$^2$ : Multi-Scale Low-Rank Approximations for Fine-Tuning Large Language Models

📄 arXiv: 2408.06854v1 📥 PDF

作者: Jia-Chen Zhang, Yu-Jie Xiong, He-Xi Qiu, Dong-Hai Zhu, Chun-Ming Xia

分类: cs.CL

发布日期: 2024-08-13


💡 一句话要点

提出LoRA$^2$以提高大语言模型微调的参数效率

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 低秩适应 大语言模型 参数效率 微调 多尺度学习

📋 核心要点

  1. 现有的低秩适应方法在处理复杂下游任务时,单一尺度的参数更新可能导致性能不足。
  2. 本文提出LoRA$^2$,通过多尺度的低秩近似方法,结合正交投影理论,提升了模型的适应性和效率。
  3. 实验结果显示,LoRA$^2$将可训练参数减少至0.72%,并在参数进一步减少至0.17M时,仍能与基线模型保持相当的性能。

📝 摘要(中文)

微调大型语言模型(LLMs)以实现高参数效率已成为一种新范式。低秩适应(LoRA)显著减少了微调所需的可训练参数数量。尽管其表现令人满意,但在复杂的下游任务中,仅在单一尺度上更新参数可能并非最佳选择。本文将LoRA扩展到多尺度,称为LoRA$^2$。我们首先结合正交投影理论,在两个相互正交的平面上训练一组LoRA。然后,我们改进了重要性评分算法,将参数敏感性评分计算减少约98.5%。通过修剪重要性评分较低的奇异值,从而增强对各种下游任务的适应性。通过在两个广泛使用的预训练模型上进行大量实验,验证了LoRA$^2$的有效性。结果表明,与完全微调相比,LoRA$^2$将可训练参数数量显著减少至仅0.72%,同时仍能提供令人印象深刻的性能。即使将参数进一步减少至0.17M,仍能实现与具有8倍参数的基线相当的结果。

🔬 方法详解

问题定义:本文旨在解决在复杂下游任务中,现有低秩适应方法(LoRA)在单一尺度上更新参数的不足,导致性能无法达到最佳。

核心思路:论文提出的LoRA$^2$方法通过多尺度的低秩近似,结合正交投影理论,训练多个LoRA,从而提高模型在不同任务中的适应性和参数效率。

技术框架:LoRA$^2$的整体架构包括两个主要阶段:首先在两个正交平面上训练LoRA,然后通过改进的重要性评分算法来优化参数选择,减少不必要的计算。

关键创新:LoRA$^2$的核心创新在于引入了多尺度的低秩近似和正交投影理论,使得模型在处理复杂任务时能够更有效地更新参数,显著提高了参数效率。

关键设计:在参数设置上,LoRA$^2$通过修剪重要性评分较低的奇异值,优化了模型的可训练参数,损失函数设计上则考虑了多尺度的影响,以确保模型在不同任务中的表现。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,LoRA$^2$将可训练参数数量减少至仅0.72%,相比于完全微调的模型,性能依然保持在高水平。即使在参数进一步减少至0.17M的情况下,LoRA$^2$仍能与基线模型(具有8倍参数)实现相当的效果,展现出显著的参数效率提升。

🎯 应用场景

该研究的潜在应用领域包括自然语言处理、对话系统以及其他需要高效微调的机器学习任务。LoRA$^2$方法的高参数效率和适应性使其在资源受限的环境中尤为重要,未来可能推动更多轻量级模型的开发与应用。

📄 摘要(原文)

Fine-tuning large language models (LLMs) with high parameter efficiency for downstream tasks has become a new paradigm. Low-Rank Adaptation (LoRA) significantly reduces the number of trainable parameters for fine-tuning. Although it has demonstrated commendable performance, updating parameters within a single scale may not be the optimal choice for complex downstream tasks.In this paper, we extend the LoRA to multiple scales, dubbed as LoRA$^2$. We first combine orthogonal projection theory to train a set of LoRAs in two mutually orthogonal planes. Then, we improve the importance score algorithm, which reduce parameter sensitivity score calculations by approximately 98.5\%. By pruning singular values with lower importance scores, thereby enhancing adaptability to various downstream tasks. Extensive experiments are conducted on two widely used pre-trained models to validate the effectiveness of LoRA$^2$. Results show that it significantly reduces the number of trainable parameters to just 0.72\% compared to full fine-tuning, while still delivering highly impressive performance. Even when the parameters are further reduced to 0.17M, it still achieves comparable results to the baseline with 8 times more parameters. Our code is available here: https://anonymous.4open.science/r/LoRA-2-5B4C