Label-Free Cross-Task LoRA Merging with Null-Space Compression

📄 arXiv: 2603.26317v1 📥 PDF

作者: Wonyoung Lee, Wooseong Jeong, Kuk-Jin Yoon

分类: cs.CV, cs.AI, cs.LG

发布日期: 2026-03-27

备注: Accepted at CVPR 2026


💡 一句话要点

提出基于零空间压缩的无标签跨任务LoRA融合方法,解决异构任务融合难题。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: LoRA融合 零空间压缩 异构任务 模型融合 迁移学习

📋 核心要点

  1. 现有LoRA融合方法在异构任务(如分类和回归)上表现不佳,且基于熵的方法不适用于回归任务。
  2. 论文提出零空间压缩(NSC)融合,利用LoRA微调过程中下投影因子零空间的压缩程度作为融合权重的优化信号。
  3. 实验表明,NSC在异构视觉任务、NLI基准测试以及VQA和图像字幕等视觉语言任务上均优于现有方法。

📝 摘要(中文)

模型融合无需联合多任务训练,即可结合独立微调后的模型检查点。在预训练模型时代,使用低秩适应(LoRA)进行微调非常普遍,使得LoRA融合成为一个有前景的研究方向。现有方法在所有目标任务都是分类的情况下表现良好,但在任务跨越分类和回归时常常失效。基于熵的替代方法不适用于回归,并且由于长token序列,对于大型语言模型来说成本高昂。我们引入了零空间压缩(NSC)融合,这是一种无标签、输出无关的方法,它从适配器的几何形状中设置融合权重。我们的关键观察是,在LoRA微调期间,下投影因子$A$在$ΔW = BA$中压缩了其零空间,并且压缩与性能相关。NSC使用它作为融合的优化信号,可以推广到分类、回归和序列生成。NSC在二十个异构视觉任务上实现了最先进的性能,并在先前方法过度拟合任务子集的情况下实现了平衡增益。它还在六个NLI基准测试以及VQA和图像字幕的视觉语言评估中优于基线,证明了可扩展性和有效性。

🔬 方法详解

问题定义:现有LoRA融合方法在处理异构任务时存在局限性,尤其是在同时包含分类和回归任务时。基于熵的融合方法计算成本高昂,且不适用于回归任务。因此,需要一种能够处理异构任务,且计算效率高的LoRA融合方法。

核心思路:论文的核心思路是利用LoRA微调过程中下投影因子A的零空间压缩程度作为融合的优化信号。作者观察到,A的零空间压缩程度与任务的性能相关,压缩程度越高,性能越好。因此,可以通过优化融合权重,使得融合后的模型能够最大程度地保留各个LoRA适配器的零空间压缩特性,从而提升整体性能。

技术框架:NSC融合方法主要包含以下几个步骤:1) 对每个任务使用LoRA进行微调,得到LoRA适配器;2) 计算每个LoRA适配器的下投影因子A的零空间压缩程度;3) 基于零空间压缩程度,优化融合权重;4) 将融合后的LoRA适配器应用到预训练模型中。

关键创新:该方法最重要的创新点在于利用了LoRA微调过程中下投影因子A的零空间压缩程度作为融合的优化信号。与现有方法相比,该方法无需标签信息,可以处理异构任务,且计算效率高。

关键设计:关键设计包括:1) 如何量化零空间压缩程度;2) 如何设计优化目标函数,使得融合后的模型能够最大程度地保留各个LoRA适配器的零空间压缩特性;3) 如何选择合适的优化算法来求解融合权重。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

NSC在20个异构视觉任务上取得了SOTA性能,并在NLI基准测试以及VQA和图像字幕等视觉语言评估中优于基线方法。实验结果表明,NSC能够有效地融合不同任务的LoRA适配器,并在异构任务上实现平衡的性能提升,避免了过拟合特定任务的问题。例如,在多个视觉任务上,NSC相比现有方法取得了显著的性能提升,证明了其有效性和泛化能力。

🎯 应用场景

该研究成果可广泛应用于预训练模型微调后的模型融合场景,尤其是在需要处理多种不同类型任务的情况下。例如,可以用于自动驾驶、机器人等领域,将针对不同感知任务(如目标检测、语义分割、深度估计)微调后的模型进行融合,从而提升整体性能和泛化能力。此外,该方法还可以应用于自然语言处理领域,例如将针对不同自然语言理解任务微调后的模型进行融合,从而构建更强大的通用自然语言理解系统。

📄 摘要(原文)

Model merging combines independently fine-tuned checkpoints without joint multi-task training. In the era of foundation-model, fine-tuning with Low-Rank Adaptation (LoRA) is prevalent, making LoRA merging a promising target. Existing approaches can work in homogeneous settings where all target tasks are classification but often fail when tasks span classification and regression. Approaches using entropy-based surrogates do not apply to regression and are costly for large language models due to long token sequences. We introduce Null-Space Compression (NSC) Merging, a label-free, output-agnostic method that sets merge weights from adapter geometry. Our key observation is that during LoRA finetuning the down-projection factor $A$ in $ΔW = BA$ compresses its null space, and the compression correlates with performance. NSC uses this as an optimization signal for merging that can generalize across classification, regression, and sequence generation. NSC achieves state-of-the-art performance across twenty heterogeneous vision tasks with balanced gains where prior methods overfit subsets of tasks. It also outperforms baselines on six NLI benchmarks and on vision-language evaluations for VQA and image captioning, demonstrating scalability and effectiveness.