Dual LoRA: Enhancing LoRA with Magnitude and Direction Updates

📄 arXiv: 2512.03402v4 📥 PDF

作者: Yixing Xu, Chao Li, Xuanwu Yin, Spandan Tiwari, Dong Li, Ashish Sirasao, Emad Barsoum

分类: cs.CL

发布日期: 2025-12-03 (更新: 2026-01-01)


💡 一句话要点

提出Dual LoRA,通过解耦幅度和方向更新增强LoRA微调大语言模型性能

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 参数高效微调 低秩适应 大语言模型 幅度方向解耦 自然语言处理

📋 核心要点

  1. LoRA微调方法受限于低秩假设,导致模型性能提升受限,无法充分适应下游任务。
  2. Dual LoRA将低秩矩阵分解为幅度和方向两组,分别控制参数更新的强度和方向,模拟全量微调过程。
  3. 实验结果表明,Dual LoRA在多种NLP任务上,显著优于LoRA及其变体,且参数量相同。

📝 摘要(中文)

低秩适应(LoRA)是参数高效微调(PEFT)方法中最流行的方法之一,用于将预训练的大型语言模型(LLM)适应于特定的下游任务。然而,基于LoRA训练的模型由于其低秩假设,通常具有不令人满意的性能。在本文中,我们提出了一种名为Dual LoRA的新方法,通过将归纳偏置纳入原始LoRA来提高性能。具体来说,我们将低秩矩阵分成两组:幅度组,用于控制是否以及应该更新参数的程度;方向组,用于决定该参数应该向前还是向后移动,以更好地模拟基于梯度优化算法的完全微调的参数更新过程。我们表明,这可以通过简单地向幅度组添加ReLU函数和向方向组添加符号函数来实现。我们对各种NLP任务进行了一系列实验,包括RoBERTa、DeBERTa和LLaMA-1/2/3作为基线模型的自然语言理解(NLU)和常识推理数据集。结果表明,在相同数量的可训练参数下,我们始终优于LoRA及其最先进的变体。

🔬 方法详解

问题定义:LoRA作为一种参数高效的微调方法,通过引入低秩矩阵来更新预训练模型参数,但其低秩假设限制了模型的表达能力,导致微调后的模型性能提升有限,无法达到全量微调的效果。现有方法难以在参数效率和模型性能之间取得平衡。

核心思路:Dual LoRA的核心思想是将LoRA中的低秩矩阵分解为两个部分:幅度矩阵和方向矩阵。幅度矩阵控制参数更新的强度,方向矩阵决定参数更新的方向。通过这种解耦,Dual LoRA能够更精细地控制参数的更新过程,从而更好地模拟全量微调的效果,提高模型性能。

技术框架:Dual LoRA的整体框架与LoRA类似,仍然是在预训练模型的特定层中插入低秩矩阵。不同之处在于,Dual LoRA将每个低秩矩阵分解为两个矩阵:一个幅度矩阵和一个方向矩阵。幅度矩阵通过ReLU函数进行激活,确保其值为非负,控制更新幅度;方向矩阵通过sign函数进行激活,输出+1或-1,决定更新方向。这两个矩阵的输出相乘,得到最终的更新值。

关键创新:Dual LoRA的关键创新在于将低秩矩阵分解为幅度和方向两部分,并分别使用ReLU和sign函数进行激活。这种分解方式使得模型能够更灵活地控制参数的更新过程,从而更好地适应下游任务。与传统的LoRA方法相比,Dual LoRA能够更有效地利用有限的参数量,提高模型性能。

关键设计:Dual LoRA的关键设计包括:1) 使用ReLU函数激活幅度矩阵,确保更新幅度为非负;2) 使用sign函数激活方向矩阵,决定更新方向;3) 幅度矩阵和方向矩阵的维度与LoRA中的低秩矩阵相同,保证参数量一致;4) 损失函数与LoRA相同,使用交叉熵损失函数进行训练。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Dual LoRA在RoBERTa、DeBERTa和LLaMA-1/2/3等多个基线模型上,以及自然语言理解(NLU)和常识推理等多个NLP任务上,均显著优于LoRA及其变体。在相同数量的可训练参数下,Dual LoRA能够取得更高的准确率和更快的收敛速度,证明了其有效性和优越性。

🎯 应用场景

Dual LoRA可广泛应用于各种需要参数高效微调的大语言模型场景,例如自然语言处理、机器翻译、文本生成等。它尤其适用于资源受限的场景,例如移动设备或边缘计算环境,可以在保证模型性能的同时,显著降低存储和计算成本。该方法还有助于加速模型迭代和部署,降低微调成本。

📄 摘要(原文)

Low-rank adaptation (LoRA) is one of the most popular methods among parameter-efficient fine-tuning (PEFT) methods to adapt pre-trained large language models (LLMs) to specific downstream tasks. However, the model trained based on LoRA often has an unsatisfactory performance due to its low-rank assumption. In this paper, we propose a novel method called Dual LoRA to improve the performance by incorporating an inductive bias into the original LoRA. Specifically, we separate low-rank matrices into two groups: the magnitude group to control whether or not and how far we should update a parameter and the direction group to decide whether this parameter should move forward or backward, to better simulate the parameter updating process of the full fine-tuning based on gradient-based optimization algorithms. We show that this can be simply achieved by adding a ReLU function to the magnitude group and a sign function to the direction group. We conduct several experiments over a wide range of NLP tasks, including natural language understanding (NLU) and commonsense reasoning datasets on RoBERTa, DeBERTa, and LLaMA-1/2/3 as baseline models. The results show that we consistently outperform LoRA and its state-of-the-art variants with the same number of trainable parameters.