Dual LoRA: Enhancing LoRA with Magnitude and Direction Updates

作者: Yixing Xu, Chao Li, Xuanwu Yin, Spandan Tiwari, Dong Li, Ashish Sirasao, Emad Barsoum

分类: cs.CL

发布日期: 2025-12-03 (更新: 2026-01-01)

💡 一句话要点

提出Dual LoRA，通过解耦幅度和方向更新增强LoRA微调大语言模型性能

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 参数高效微调 低秩适应 大语言模型 幅度方向解耦 自然语言处理

📋 核心要点

LoRA微调方法受限于低秩假设，导致模型性能提升受限，无法充分适应下游任务。
Dual LoRA将低秩矩阵分解为幅度和方向两组，分别控制参数更新的强度和方向，模拟全量微调过程。
实验结果表明，Dual LoRA在多种NLP任务上，显著优于LoRA及其变体，且参数量相同。

📝 摘要（中文）

低秩适应(LoRA)是参数高效微调(PEFT)方法中最流行的方法之一，用于将预训练的大型语言模型(LLM)适应于特定的下游任务。然而，基于LoRA训练的模型由于其低秩假设，通常具有不令人满意的性能。在本文中，我们提出了一种名为Dual LoRA的新方法，通过将归纳偏置纳入原始LoRA来提高性能。具体来说，我们将低秩矩阵分成两组：幅度组，用于控制是否以及应该更新参数的程度；方向组，用于决定该参数应该向前还是向后移动，以更好地模拟基于梯度优化算法的完全微调的参数更新过程。我们表明，这可以通过简单地向幅度组添加ReLU函数和向方向组添加符号函数来实现。我们对各种NLP任务进行了一系列实验，包括RoBERTa、DeBERTa和LLaMA-1/2/3作为基线模型的自然语言理解(NLU)和常识推理数据集。结果表明，在相同数量的可训练参数下，我们始终优于LoRA及其最先进的变体。

🔬 方法详解

问题定义：LoRA作为一种参数高效的微调方法，通过引入低秩矩阵来更新预训练模型参数，但其低秩假设限制了模型的表达能力，导致微调后的模型性能提升有限，无法达到全量微调的效果。现有方法难以在参数效率和模型性能之间取得平衡。

核心思路：Dual LoRA的核心思想是将LoRA中的低秩矩阵分解为两个部分：幅度矩阵和方向矩阵。幅度矩阵控制参数更新的强度，方向矩阵决定参数更新的方向。通过这种解耦，Dual LoRA能够更精细地控制参数的更新过程，从而更好地模拟全量微调的效果，提高模型性能。

技术框架：Dual LoRA的整体框架与LoRA类似，仍然是在预训练模型的特定层中插入低秩矩阵。不同之处在于，Dual LoRA将每个低秩矩阵分解为两个矩阵：一个幅度矩阵和一个方向矩阵。幅度矩阵通过ReLU函数进行激活，确保其值为非负，控制更新幅度；方向矩阵通过sign函数进行激活，输出+1或-1，决定更新方向。这两个矩阵的输出相乘，得到最终的更新值。

关键创新：Dual LoRA的关键创新在于将低秩矩阵分解为幅度和方向两部分，并分别使用ReLU和sign函数进行激活。这种分解方式使得模型能够更灵活地控制参数的更新过程，从而更好地适应下游任务。与传统的LoRA方法相比，Dual LoRA能够更有效地利用有限的参数量，提高模型性能。

关键设计：Dual LoRA的关键设计包括：1) 使用ReLU函数激活幅度矩阵，确保更新幅度为非负；2) 使用sign函数激活方向矩阵，决定更新方向；3) 幅度矩阵和方向矩阵的维度与LoRA中的低秩矩阵相同，保证参数量一致；4) 损失函数与LoRA相同，使用交叉熵损失函数进行训练。

🖼️ 关键图片

📊 实验亮点

实验结果表明，Dual LoRA在RoBERTa、DeBERTa和LLaMA-1/2/3等多个基线模型上，以及自然语言理解(NLU)和常识推理等多个NLP任务上，均显著优于LoRA及其变体。在相同数量的可训练参数下，Dual LoRA能够取得更高的准确率和更快的收敛速度，证明了其有效性和优越性。

🎯 应用场景

Dual LoRA可广泛应用于各种需要参数高效微调的大语言模型场景，例如自然语言处理、机器翻译、文本生成等。它尤其适用于资源受限的场景，例如移动设备或边缘计算环境，可以在保证模型性能的同时，显著降低存储和计算成本。该方法还有助于加速模型迭代和部署，降低微调成本。

📄 摘要（原文）

Low-rank adaptation (LoRA) is one of the most popular methods among parameter-efficient fine-tuning (PEFT) methods to adapt pre-trained large language models (LLMs) to specific downstream tasks. However, the model trained based on LoRA often has an unsatisfactory performance due to its low-rank assumption. In this paper, we propose a novel method called Dual LoRA to improve the performance by incorporating an inductive bias into the original LoRA. Specifically, we separate low-rank matrices into two groups: the magnitude group to control whether or not and how far we should update a parameter and the direction group to decide whether this parameter should move forward or backward, to better simulate the parameter updating process of the full fine-tuning based on gradient-based optimization algorithms. We show that this can be simply achieved by adding a ReLU function to the magnitude group and a sign function to the direction group. We conduct several experiments over a wide range of NLP tasks, including natural language understanding (NLU) and commonsense reasoning datasets on RoBERTa, DeBERTa, and LLaMA-1/2/3 as baseline models. The results show that we consistently outperform LoRA and its state-of-the-art variants with the same number of trainable parameters.

Dual LoRA: Enhancing LoRA with Magnitude and Direction Updates

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理