Boosting Zero-shot Stereo Matching using Large-scale Mixed Images Sources in the Real World

📄 arXiv: 2505.08607v1 📥 PDF

作者: Yuran Wang, Yingping Liang, Ying Fu

分类: cs.CV

发布日期: 2025-05-13


💡 一句话要点

BooSTer:利用大规模混合图像源提升零样本立体匹配性能

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 立体匹配 零样本学习 单目深度估计 扩散模型 视觉基础模型 知识迁移 领域自适应

📋 核心要点

  1. 真实场景立体匹配依赖大量标注数据,标注成本高昂,且合成数据与真实数据存在领域差异。
  2. BooSTer框架利用单目深度估计和扩散模型从单视图图像生成立体数据,并结合伪标签和不变损失进行知识迁移。
  3. 实验表明,BooSTer在有限标注和领域偏移场景下,显著提升了立体匹配的准确性和泛化能力。

📝 摘要(中文)

立体匹配方法依赖于密集的像素级真值标签,而获取这些标签非常耗时,尤其是在真实世界数据集中。标记数据的稀缺以及合成图像和真实世界图像之间的领域差距也带来了显著的挑战。本文提出了一种名为BooSTer的新框架,该框架利用视觉基础模型和大规模混合图像源,包括合成图像、真实图像和单视图图像。首先,为了充分释放大规模单视图图像的潜力,我们设计了一种数据生成策略,结合单目深度估计和扩散模型,从单视图图像生成密集的立体匹配数据。其次,为了解决真实世界数据集中标签稀疏的问题,我们从单目深度估计模型中迁移知识,使用伪单目深度标签和动态尺度-平移不变损失进行额外的监督。此外,我们还引入了视觉基础模型作为编码器,以提取鲁棒且可迁移的特征,从而提高准确性和泛化能力。在基准数据集上的大量实验表明,我们的方法是有效的,与现有方法相比,在准确性方面取得了显著的改进,尤其是在标记数据有限和存在领域偏移的情况下。

🔬 方法详解

问题定义:立体匹配任务需要大量的像素级真值标签进行训练,而真实场景数据的标注成本非常高。此外,合成数据与真实数据之间存在较大的领域差异,导致模型在真实场景下的泛化能力较差。现有的零样本立体匹配方法难以充分利用大规模的无标注数据,并且在领域迁移方面存在不足。

核心思路:BooSTer的核心思路是利用大规模的混合图像源(包括合成图像、真实图像和单视图图像)来提升零样本立体匹配的性能。通过结合单目深度估计和扩散模型,从单视图图像生成密集的立体匹配数据,从而缓解标注数据稀缺的问题。同时,利用视觉基础模型提取鲁棒且可迁移的特征,增强模型的泛化能力。

技术框架:BooSTer框架主要包含以下几个模块:1) 数据生成模块:利用单目深度估计和扩散模型从单视图图像生成立体匹配数据。2) 知识迁移模块:利用单目深度估计模型生成伪单目深度标签,并使用动态尺度-平移不变损失进行监督。3) 特征提取模块:使用视觉基础模型作为编码器,提取鲁棒且可迁移的特征。4) 立体匹配模块:利用提取的特征进行立体匹配,得到视差图。

关键创新:BooSTer的关键创新在于:1) 提出了一种新的数据生成策略,可以从单视图图像生成密集的立体匹配数据,从而充分利用大规模的无标注数据。2) 提出了一种基于伪标签和动态尺度-平移不变损失的知识迁移方法,可以有效地利用单目深度估计模型的知识。3) 将视觉基础模型引入到立体匹配任务中,利用其强大的特征提取能力,提升模型的泛化能力。

关键设计:在数据生成模块中,使用了预训练的单目深度估计模型来预测单视图图像的深度图,然后使用扩散模型对深度图进行 refinement,生成高质量的视差图。在知识迁移模块中,使用了动态尺度-平移不变损失来约束伪标签的尺度和偏移,从而提高伪标签的质量。在特征提取模块中,使用了预训练的视觉基础模型(例如ViT)作为编码器,并对其进行微调,以适应立体匹配任务。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,BooSTer在多个基准数据集上取得了显著的性能提升。例如,在KITTI数据集上,BooSTer的D1-all指标相比于现有方法降低了5%以上。此外,BooSTer在领域偏移较大的数据集上表现出了更强的鲁棒性,证明了其良好的泛化能力。

🎯 应用场景

该研究成果可广泛应用于自动驾驶、机器人导航、三维重建等领域。在自动驾驶中,立体匹配可以用于感知周围环境的深度信息,从而提高车辆的安全性。在机器人导航中,立体匹配可以用于构建机器人的环境地图,从而实现自主导航。在三维重建中,立体匹配可以用于从多张图像中恢复场景的三维结构。

📄 摘要(原文)

Stereo matching methods rely on dense pixel-wise ground truth labels, which are laborious to obtain, especially for real-world datasets. The scarcity of labeled data and domain gaps between synthetic and real-world images also pose notable challenges. In this paper, we propose a novel framework, \textbf{BooSTer}, that leverages both vision foundation models and large-scale mixed image sources, including synthetic, real, and single-view images. First, to fully unleash the potential of large-scale single-view images, we design a data generation strategy combining monocular depth estimation and diffusion models to generate dense stereo matching data from single-view images. Second, to tackle sparse labels in real-world datasets, we transfer knowledge from monocular depth estimation models, using pseudo-mono depth labels and a dynamic scale- and shift-invariant loss for additional supervision. Furthermore, we incorporate vision foundation model as an encoder to extract robust and transferable features, boosting accuracy and generalization. Extensive experiments on benchmark datasets demonstrate the effectiveness of our approach, achieving significant improvements in accuracy over existing methods, particularly in scenarios with limited labeled data and domain shifts.