Learning Robust Stereo Matching in the Wild with Selective Mixture-of-Experts
作者: Yun Wang, Longguang Wang, Chenghao Zhang, Yongjian Zhang, Zhanjie Zhang, Ao Ma, Chenyou Fan, Tin Lun Lam, Junjie Hu
分类: cs.CV, cs.AI, cs.RO
发布日期: 2025-07-07
期刊: ICCV 2025
🔗 代码/项目: GITHUB
💡 一句话要点
提出SMoEStereo,利用选择性混合专家模型提升立体匹配在复杂场景下的鲁棒性。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 立体匹配 视觉基础模型 混合专家模型 低秩自适应 跨域泛化 场景自适应 深度估计
📋 核心要点
- 现有立体匹配网络在跨域泛化能力上存在不足,主要原因是领域偏移和视差分布不平衡。
- SMoEStereo通过LoRA和MoE模块的场景自适应融合,有效利用视觉基础模型提升立体匹配的鲁棒性。
- 实验表明,SMoEStereo在多个基准测试中实现了最先进的跨域和联合泛化性能,无需特定数据集调整。
📝 摘要(中文)
近年来,基于学习的立体匹配网络取得了显著进展。然而,由于领域偏移和不同数据集之间视差分布的不平衡,它们通常缺乏鲁棒性,难以实现令人印象深刻的跨域性能。利用视觉基础模型(VFMs)可以直观地增强模型的鲁棒性,但如何经济高效地将这种模型集成到立体匹配中,以充分发挥其鲁棒性仍然是一个关键挑战。为了解决这个问题,我们提出了一种新的框架SMoEStereo,通过定制的、特定于场景的低秩自适应(LoRA)和混合专家(MoE)模块融合来调整VFMs用于立体匹配。SMoEStereo引入了具有自适应秩的MoE-LoRA和具有自适应内核大小的MoE-Adapter。前者动态地选择MoE中的最佳专家,以适应跨域的不同场景,而后者将归纳偏置注入到冻结的VFMs中,以改进几何特征提取。重要的是,为了减轻计算开销,我们进一步提出了一个轻量级的决策网络,该网络根据输入复杂度选择性地激活MoE模块,从而在效率和准确性之间取得平衡。大量的实验表明,我们的方法在多个基准测试中表现出最先进的跨域和联合泛化能力,而无需特定于数据集的调整。
🔬 方法详解
问题定义:现有的基于学习的立体匹配网络在实际应用中面临鲁棒性问题,尤其是在跨领域场景下,由于训练数据和测试数据之间的差异(领域偏移)以及不同场景下视差分布的差异,导致性能显著下降。直接使用大型视觉基础模型(VFMs)进行立体匹配计算成本高昂,且难以充分利用其泛化能力。
核心思路:SMoEStereo的核心思路是利用混合专家模型(MoE)和低秩自适应(LoRA)技术,对视觉基础模型进行高效的场景自适应调整。通过MoE动态选择最适合当前场景的专家,LoRA则以低成本的方式微调VFM,从而在保持计算效率的同时,提升模型的跨域泛化能力。
技术框架:SMoEStereo的整体框架包含以下几个主要模块:1) 特征提取模块:利用冻结的视觉基础模型提取图像特征。2) MoE-LoRA模块:动态选择MoE中的专家,并使用LoRA对VFM进行微调,以适应不同场景。3) MoE-Adapter模块:将归纳偏置注入到冻结的VFMs中,以改进几何特征提取。4) 代价计算与聚合模块:计算左右图像特征的代价体,并进行聚合。5) 视差预测模块:预测最终的视差图。6) 轻量级决策网络:根据输入复杂度选择性地激活MoE模块,平衡效率和准确性。
关键创新:SMoEStereo的关键创新在于:1) 提出了一种基于MoE和LoRA的场景自适应融合方法,能够高效地利用视觉基础模型提升立体匹配的鲁棒性。2) 引入了MoE-LoRA和MoE-Adapter模块,分别用于动态选择专家和注入归纳偏置。3) 设计了一个轻量级的决策网络,用于选择性地激活MoE模块,从而降低计算成本。与现有方法相比,SMoEStereo能够在不进行数据集特定调整的情况下,实现更好的跨域泛化性能。
关键设计:MoE-LoRA模块采用自适应秩的LoRA,根据场景复杂度动态调整LoRA的秩,以平衡模型容量和计算成本。MoE-Adapter模块采用自适应内核大小的卷积,以适应不同尺度的几何特征。轻量级决策网络使用少量参数,根据输入图像的梯度等信息,预测需要激活的MoE模块。损失函数包括视差预测损失和MoE的正则化损失,以鼓励专家之间的多样性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,SMoEStereo在多个跨域立体匹配基准测试中取得了最先进的性能,例如在Middlebury、KITTI等数据集上,其视差预测精度显著优于现有方法。更重要的是,SMoEStereo在联合泛化实验中也表现出色,无需针对特定数据集进行微调,即可实现良好的性能,验证了其强大的跨域泛化能力。
🎯 应用场景
SMoEStereo在自动驾驶、机器人导航、三维重建等领域具有广泛的应用前景。该方法能够提升立体匹配算法在复杂和未知环境下的鲁棒性和准确性,从而提高相关系统的可靠性和安全性。此外,该研究提出的MoE和LoRA融合策略,也为其他视觉任务中利用视觉基础模型提供了新的思路。
📄 摘要(原文)
Recently, learning-based stereo matching networks have advanced significantly. However, they often lack robustness and struggle to achieve impressive cross-domain performance due to domain shifts and imbalanced disparity distributions among diverse datasets. Leveraging Vision Foundation Models (VFMs) can intuitively enhance the model's robustness, but integrating such a model into stereo matching cost-effectively to fully realize their robustness remains a key challenge. To address this, we propose SMoEStereo, a novel framework that adapts VFMs for stereo matching through a tailored, scene-specific fusion of Low-Rank Adaptation (LoRA) and Mixture-of-Experts (MoE) modules. SMoEStereo introduces MoE-LoRA with adaptive ranks and MoE-Adapter with adaptive kernel sizes. The former dynamically selects optimal experts within MoE to adapt varying scenes across domains, while the latter injects inductive bias into frozen VFMs to improve geometric feature extraction. Importantly, to mitigate computational overhead, we further propose a lightweight decision network that selectively activates MoE modules based on input complexity, balancing efficiency with accuracy. Extensive experiments demonstrate that our method exhibits state-of-the-art cross-domain and joint generalization across multiple benchmarks without dataset-specific adaptation. The code is available at \textcolor{red}{https://github.com/cocowy1/SMoE-Stereo}.