RecycleLoRA: Rank-Revealing QR-Based Dual-LoRA Subspace Adaptation for Domain Generalized Semantic Segmentation
作者: Chanseul Cho, Seokju Yun, Jeaseong Jeon, Seungjae Moon, Youngmin Ro
分类: cs.CV, cs.AI
发布日期: 2026-03-30
备注: Accepted to CVPR 2026 (Findings)
💡 一句话要点
RecycleLoRA:基于RRQR分解的双LoRA子空间自适应,用于领域泛化语义分割
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 领域泛化 语义分割 视觉基础模型 LoRA RRQR分解 子空间自适应 迁移学习
📋 核心要点
- 领域泛化语义分割任务中,如何有效利用视觉基础模型(VFMs)中蕴含的丰富知识是一个挑战,现有方法对VFM子空间结构的利用不足。
- RecycleLoRA通过Rank-Revealing QR分解(RRQR)系统地挖掘VFM的子空间结构,并设计双LoRA适配器,提升LoRA的表征能力。
- 实验表明,RecycleLoRA在合成到真实和真实到真实泛化任务上均取得了SOTA性能,且没有引入额外的推理延迟。
📝 摘要(中文)
领域泛化语义分割(DGSS)旨在保持模型在未见目标域上的鲁棒性能。视觉基础模型(VFMs)蕴含丰富的多领域知识,可增强泛化能力。然而,现有方法主要关注于保留预训练知识,对VFMs中丰富的子空间结构的有效利用不足。此外,其LoRA组件通常存在表征多样性有限和参数利用效率低下的问题。我们提出了RecycleLoRA,通过采用基于Rank-Revealing QR分解(RRQR)的方法,系统地利用VFM的子空间结构,并增强LoRA的表征丰富性,从而解决上述挑战。我们的主适配器利用RRQR识别出的次要子空间方向来学习多样且独立的特征,即使单独使用也能实现有竞争力的性能。我们进一步引入了一个子适配器,它以最小的调整来精细化主要方向,为主适配器的强大基线性能提供补充改进。这种设计使双适配器能够学习不同的表示,而无需额外的正则化损失。我们通过基于RRQR的初始化系统地利用预训练的子空间结构,从而实现卓越的领域泛化性能。RecycleLoRA在合成到真实泛化和真实到真实泛化任务上均实现了最先进的性能,且无需复杂的架构或额外的推理延迟。
🔬 方法详解
问题定义:领域泛化语义分割(DGSS)旨在使模型在未见过的目标域上保持良好的性能。现有的方法通常难以充分利用视觉基础模型(VFMs)中蕴含的丰富知识,并且LoRA适配器的表征能力有限,参数利用效率不高。
核心思路:RecycleLoRA的核心思路是通过Rank-Revealing QR分解(RRQR)来系统地挖掘和利用VFM的子空间结构,并设计双LoRA适配器来增强模型的表征能力。RRQR能够识别出VFM中重要的和不重要的子空间方向,从而可以更有针对性地进行适配。
技术框架:RecycleLoRA包含两个主要的适配器:主适配器和子适配器。主适配器利用RRQR识别出的次要子空间方向来学习多样且独立的特征。子适配器则用于精细化主要方向,对主适配器的性能进行补充改进。整个框架无需额外的正则化损失,即可使两个适配器学习到不同的表示。
关键创新:RecycleLoRA的关键创新在于使用RRQR分解来指导LoRA适配器的学习过程,从而更有效地利用VFM的子空间结构。与现有方法主要关注于保留预训练知识不同,RecycleLoRA主动地挖掘和利用VFM中的信息,提升模型的泛化能力。
关键设计:RecycleLoRA使用RRQR分解来确定LoRA适配器的初始化。主适配器初始化为对应于次要子空间方向的矩阵,而子适配器则初始化为对应于主要子空间方向的矩阵。这种初始化方式使得两个适配器能够学习到不同的表示,从而提升模型的整体性能。具体的参数设置和网络结构细节在论文中有详细描述。
🖼️ 关键图片
📊 实验亮点
RecycleLoRA在合成到真实泛化和真实到真实泛化任务上均取得了最先进的性能。例如,在某些数据集上,RecycleLoRA相比于之前的SOTA方法取得了显著的性能提升,同时没有引入额外的推理延迟,证明了其有效性和实用性。
🎯 应用场景
RecycleLoRA在领域泛化语义分割任务中表现出色,可应用于自动驾驶、机器人导航、遥感图像分析等领域。通过提升模型在不同环境下的鲁棒性,减少对大量标注数据的依赖,降低部署成本,具有重要的实际应用价值和广阔的未来发展前景。
📄 摘要(原文)
Domain Generalized Semantic Segmentation (DGSS) aims to maintain robust performance across unseen target domains. Vision Foundation Models (VFMs) offer rich multi-domain knowledge that can enhance generalization. However, strategies for actively exploiting the rich subspace structures within VFMs remain under-explored, with many existing methods focusing primarily on preserving pre-trained knowledge. Furthermore, their LoRA components often suffer from limited representational diversity and inefficient parameter utilization. We propose RecycleLoRA, which addresses both challenges by employing Rank-Revealing QR Decomposition (RRQR) to systematically exploit VFM's subspace structures and enhance LoRA's representational richness. Our main adapter leverages minor subspace directions identified by RRQR to learn diverse and independent features, achieving competitive performance even when used alone. We further introduce a sub adapter that carefully refines major directions with minimal adjustments, providing complementary improvements to the main adapter's strong baseline performance. This design enables the dual adapters to learn distinct representations without requiring additional regularization losses. Our systematic exploitation of pre-trained subspace structures through RRQR-based initialization leads to superior domain generalization performance. RecycleLoRA achieves state-of-the-art performance on both synthetic-to-real generalization and real-to-real generalization tasks without complex architectures or additional inference latency.