Disentangling Task Conflicts in Multi-Task LoRA via Orthogonal Gradient Projection

📄 arXiv: 2601.09684v1 📥 PDF

作者: Ziyu Yang, Guibin Chen, Yuxin Yang, Aoxiong Zeng, Xiangquan Yang

分类: cs.LG, cs.AI, cs.CL

发布日期: 2026-01-14

备注: preprint


💡 一句话要点

提出Ortho-LoRA,通过正交梯度投影缓解多任务LoRA中的任务冲突。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多任务学习 低秩适应 LoRA 梯度投影 任务冲突 正交化 参数高效微调

📋 核心要点

  1. 多任务LoRA在参数高效微调LLM时易受任务冲突影响,导致性能下降。
  2. Ortho-LoRA通过在LoRA子空间内正交投影冲突梯度,动态缓解任务间的干扰。
  3. 实验表明,Ortho-LoRA显著优于标准联合训练,并接近单任务微调的性能上限。

📝 摘要(中文)

多任务学习(MTL)与低秩适应(LoRA)相结合,已成为大语言模型(LLM)参数高效部署的一个有前景的方向。通过在多个任务之间共享单个适配器,可以显著降低存储开销。然而,这种方法存在负迁移的问题,即来自不同任务的冲突梯度更新会降低单个任务的性能,使其低于单任务微调的性能。由于低秩约束限制了优化空间容纳不同任务需求的能力,这个问题在LoRA中更加严重。本文提出Ortho-LoRA,一种专门为LoRA的两部分结构量身定制的梯度投影方法。Ortho-LoRA动态地将冲突的任务梯度投影到彼此在LoRA固有子空间内的正交补空间上。在GLUE基准上的大量实验表明,Ortho-LoRA有效地缓解了任务干扰,优于标准联合训练,并以可忽略的计算开销恢复了多任务和单任务基线之间95%的性能差距。

🔬 方法详解

问题定义:多任务学习结合LoRA旨在通过共享适配器实现参数高效的LLM微调。然而,不同任务的梯度更新可能存在冲突,导致负迁移,降低单个任务的性能。LoRA的低秩约束进一步限制了模型适应不同任务的能力,加剧了任务冲突问题。

核心思路:Ortho-LoRA的核心思想是将冲突的任务梯度投影到彼此在LoRA子空间内的正交补空间上。这样可以确保每个任务的更新方向尽可能地独立,从而减少任务间的干扰,避免负迁移。

技术框架:Ortho-LoRA主要包含以下步骤:1) 计算每个任务的LoRA梯度;2) 检测任务间的梯度冲突;3) 将冲突梯度投影到彼此的正交补空间;4) 使用投影后的梯度更新LoRA参数。该方法可以很容易地集成到现有的多任务LoRA训练流程中。

关键创新:Ortho-LoRA的关键创新在于针对LoRA的特殊结构设计了正交梯度投影方法。与通用的梯度操作方法不同,Ortho-LoRA充分利用了LoRA的低秩特性,在LoRA子空间内进行梯度投影,从而更有效地缓解任务冲突。

关键设计:Ortho-LoRA的关键设计包括:1) 使用内积来衡量任务梯度之间的冲突程度;2) 使用Gram-Schmidt正交化过程计算正交投影矩阵;3) 动态调整投影强度,以平衡任务间的性能。

📊 实验亮点

在GLUE基准测试中,Ortho-LoRA显著优于标准联合训练方法,并恢复了多任务和单任务基线之间95%的性能差距。这表明Ortho-LoRA能够有效地缓解任务干扰,提升多任务学习的性能,同时保持较低的计算开销。

🎯 应用场景

Ortho-LoRA可应用于各种需要多任务学习和参数高效微调的场景,例如自然语言处理中的多语言翻译、情感分析和文本分类等。该方法能够提升多任务学习的性能,降低模型部署的存储和计算成本,具有广泛的应用前景。

📄 摘要(原文)

Multi-Task Learning (MTL) combined with Low-Rank Adaptation (LoRA) has emerged as a promising direction for parameter-efficient deployment of Large Language Models (LLMs). By sharing a single adapter across multiple tasks, one can significantly reduce storage overhead. However, this approach suffers from negative transfer, where conflicting gradient updates from distinct tasks degrade the performance of individual tasks compared to single-task fine-tuning. This problem is exacerbated in LoRA due to the low-rank constraint, which limits the optimization landscape's capacity to accommodate diverse task requirements. In this paper, we propose Ortho-LoRA, a gradient projection method specifically tailored for the bipartite structure of LoRA. Ortho-LoRA dynamically projects conflicting task gradients onto the orthogonal complement of each other within the intrinsic LoRA subspace. Extensive experiments on the GLUE benchmark demonstrate that Ortho-LoRA effectively mitigates task interference, outperforming standard joint training and recovering 95\% of the performance gap between multi-task and single-task baselines with negligible computational overhead.