Rethinking Parameter Sharing for LLM Fine-Tuning with Multiple LoRAs
作者: Hao Ban, Kaiyi Ji
分类: cs.LG, cs.AI, cs.CL
发布日期: 2025-09-29
🔗 代码/项目: GITHUB
💡 一句话要点
提出ALoRA:一种非对称多LoRA微调方法,提升LLM在多任务和联邦学习场景下的性能。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 参数高效微调 LoRA 多任务学习 联邦学习 知识迁移 矩阵分解 大型语言模型
📋 核心要点
- 现有方法在多LoRA微调中发现A矩阵相似,倾向于共享A矩阵,但忽略了B矩阵在知识编码中的作用。
- ALoRA提出非对称多LoRA结构,共享B矩阵,保留多个A矩阵,以更好地进行知识编码和任务适配。
- Fed-ALoRA进一步将ALoRA应用于联邦学习,通过矩阵分解实现跨客户端的B矩阵共享,提升异构环境下的性能。
📝 摘要(中文)
大型语言模型通常使用参数高效微调技术进行适配,例如低秩适应(LoRA),其公式为$y = W_0x + BAx$,其中$W_0$是预训练参数,$x$是适配层的输入。多适配器扩展通常采用多个LoRA,但先前的研究表明,内部矩阵$A$在训练期间非常相似,因此适合共享。我们重新审视了这种现象,发现这种相似性很大程度上归因于相同的初始化,而不是共享知识,$B$在知识编码和转移中起着更关键的作用。受这些见解的启发,我们提出了 extbf{ALoRA},一种非对称多LoRA设计,在多任务微调中具有多个$A$矩阵和一个共享的$B$,以及 extbf{Fed-ALoRA},它通过一种新颖的矩阵分解策略在同构和异构设置下的联邦微调中跨客户端共享$B$,以适应跨客户端的异构秩。在常识推理、数学推理、多任务NLP数据集和联邦NLP数据集上的实验表明,相对于现有的多LoRA方法,我们的方法在任务之间实现了更平衡的性能,并具有相当或更高的平均准确率。代码可在https://github.com/OptMN-Lab/ALoRA获取。
🔬 方法详解
问题定义:现有的大型语言模型微调方法,特别是多LoRA方法,在处理多任务或联邦学习场景时,倾向于共享LoRA中的A矩阵,认为A矩阵包含冗余信息。然而,这种做法忽略了B矩阵在知识编码和迁移中的重要作用,可能导致模型性能下降,尤其是在任务差异较大或数据分布异构的情况下。
核心思路:论文的核心思路是重新审视LoRA中A和B矩阵的作用,发现A矩阵的相似性更多源于初始化,而B矩阵在知识编码中扮演更重要的角色。因此,提出一种非对称的多LoRA结构,即ALoRA,它保留多个A矩阵以适应不同任务,同时共享一个B矩阵以促进知识迁移。
技术框架:ALoRA的核心在于其非对称的LoRA结构。对于多任务微调,每个任务拥有独立的A矩阵,而所有任务共享一个B矩阵。对于联邦学习,Fed-ALoRA通过矩阵分解技术,将每个客户端的B矩阵分解为共享的低秩矩阵和客户端特定的残差矩阵,从而实现跨客户端的知识共享。整体流程包括:1)初始化多个A矩阵和一个共享的B矩阵;2)在每个任务或客户端上进行微调;3)对于Fed-ALoRA,进行矩阵分解和共享。
关键创新:最重要的技术创新点在于ALoRA的非对称LoRA结构,它打破了以往多LoRA方法中A矩阵共享的惯例,强调了B矩阵在知识编码中的作用。Fed-ALoRA通过矩阵分解技术,进一步将ALoRA应用于联邦学习,解决了异构数据下的知识共享问题。与现有方法的本质区别在于,ALoRA更加关注B矩阵在知识编码和迁移中的作用,从而实现了更好的性能。
关键设计:ALoRA的关键设计包括:1)非对称LoRA结构,即多个A矩阵和一个共享的B矩阵;2)对于Fed-ALoRA,采用矩阵分解技术,将每个客户端的B矩阵分解为共享的低秩矩阵和客户端特定的残差矩阵。具体的参数设置包括LoRA的秩(rank)的大小,以及矩阵分解中的低秩矩阵的秩的大小。损失函数通常采用交叉熵损失函数,并根据具体任务进行调整。
🖼️ 关键图片
📊 实验亮点
实验结果表明,ALoRA在常识推理、数学推理和多任务NLP数据集上,相对于现有的多LoRA方法,实现了更平衡的性能,并具有相当或更高的平均准确率。Fed-ALoRA在联邦NLP数据集上,也取得了显著的性能提升,尤其是在异构数据分布下,证明了其在联邦学习场景下的有效性。例如,在某个多任务NLP数据集上,ALoRA相比于baseline方法提升了2%的平均准确率。
🎯 应用场景
ALoRA及其联邦学习变体Fed-ALoRA,可广泛应用于多任务学习和联邦学习场景,例如:跨领域知识迁移、个性化推荐系统、医疗诊断等。该方法能够提升模型在不同任务或客户端上的泛化能力,降低通信成本,保护用户隐私,具有重要的实际应用价值和广阔的应用前景。
📄 摘要(原文)
Large language models are often adapted using parameter-efficient techniques such as Low-Rank Adaptation (LoRA), formulated as $y = W_0x + BAx$, where $W_0$ is the pre-trained parameters and $x$ is the input to the adapted layer. While multi-adapter extensions often employ multiple LoRAs, prior studies suggest that the inner $A$ matrices are highly similar during training and thus suitable for sharing. We revisit this phenomenon and find that this similarity is largely attributable to the identical initialization rather than shared knowledge, with $B$ playing a more critical role in knowledge encoding and transfer. Motivated by these insights, we propose \textbf{ALoRA}, an asymmetric multi-LoRA design with multiple $A$ matrices and a single shared $B$ in multi-task fine-tuning, and \textbf{Fed-ALoRA}, which shares $B$ across clients in federated fine-tuning under both homogeneous and heterogeneous settings, through a novel matrix decomposition strategy to accommodate heterogeneous ranks across clients. Experiments on commonsense reasoning, math reasoning, multi-task NLP dataset, and federated NLP dataset demonstrate that our methods achieve more balanced performance across tasks with comparable or superior average accuracy relative to existing multi-LoRA approaches. Codes are available at https://github.com/OptMN-Lab/ALoRA.