Stereo Anywhere: Robust Zero-Shot Deep Stereo Matching Even Where Either Stereo or Mono Fail

📄 arXiv: 2412.04472v2 📥 PDF

作者: Luca Bartolomei, Fabio Tosi, Matteo Poggi, Stefano Mattoccia

分类: cs.CV

发布日期: 2024-12-05 (更新: 2025-05-07)

备注: CVPR 2025. Code: https://github.com/bartn8/stereoanywhere - Project page: https://stereoanywhere.github.io/


💡 一句话要点

提出Stereo Anywhere,结合几何约束与单目深度先验,实现鲁棒的零样本立体匹配。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 立体匹配 深度估计 零样本学习 视觉基础模型 代价体融合

📋 核心要点

  1. 现有立体匹配方法在无纹理区域、遮挡和非朗伯表面等复杂场景下表现不佳,泛化能力有限。
  2. Stereo Anywhere结合几何约束与单目深度先验,通过双分支架构融合立体匹配和上下文信息,提升鲁棒性。
  3. 在MonoTrap数据集和多个基准测试中,该模型在零样本泛化方面达到SOTA,对镜面和透明物体等挑战性场景表现出优异的鲁棒性。

📝 摘要(中文)

本文提出了一种名为Stereo Anywhere的新型立体匹配框架,该框架将几何约束与来自单目深度视觉基础模型(VFMs)的鲁棒先验相结合。通过双分支架构优雅地耦合这两个互补的世界,我们无缝地集成立体匹配与学习到的上下文线索。基于此设计,我们的框架引入了新颖的代价体融合机制,有效地处理了诸如无纹理区域、遮挡和非朗伯表面等关键挑战。通过我们新颖的光学错觉数据集MonoTrap以及在多个基准上的广泛评估,我们证明了我们仅使用合成数据训练的模型在零样本泛化方面实现了最先进的结果,显著优于现有解决方案,同时在诸如镜子和透明物体等具有挑战性的情况下表现出卓越的鲁棒性。

🔬 方法详解

问题定义:传统立体匹配方法在纹理缺失、遮挡以及非朗伯反射表面等复杂场景下容易失效,并且在不同数据集上的泛化能力较弱。现有的方法往往依赖于大量真实数据的训练,难以适应新的场景。因此,如何设计一种鲁棒性强、泛化能力好的零样本立体匹配算法是一个关键问题。

核心思路:Stereo Anywhere的核心思路是将传统的几何约束立体匹配方法与单目深度估计的先验知识相结合。利用单目深度估计提供场景的上下文信息和深度先验,辅助立体匹配算法在困难区域进行准确匹配。通过融合两种互补的信息来源,提高算法的鲁棒性和泛化能力。

技术框架:Stereo Anywhere采用双分支架构。一个分支是传统的立体匹配分支,负责利用几何约束计算视差图。另一个分支是单目深度估计分支,利用视觉基础模型(VFMs)预测场景的深度图。然后,通过代价体融合机制,将两个分支的信息进行融合,得到最终的视差图。该框架包含代价体构建、代价体融合、视差优化等主要模块。

关键创新:该论文的关键创新在于代价体融合机制。传统的代价体融合方法通常采用简单的加权平均或拼接操作,无法有效地处理不同分支之间的信息冲突。Stereo Anywhere提出了一种新的代价体融合机制,能够自适应地调整不同分支的权重,从而更好地融合立体匹配和单目深度估计的信息。

关键设计:该框架的关键设计包括:1) 使用预训练的单目深度视觉基础模型(VFMs)提取深度先验;2) 设计了一种新的代价体融合机制,能够自适应地融合立体匹配和单目深度估计的信息;3) 构建了一个新的光学错觉数据集MonoTrap,用于评估算法在具有挑战性的场景下的性能。损失函数的设计也至关重要,需要平衡立体匹配的精度和单目深度估计的先验信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Stereo Anywhere在多个基准测试中取得了显著的成果。在零样本泛化方面,该方法显著优于现有的立体匹配算法,尤其是在MonoTrap数据集上,该数据集包含大量光学错觉场景。实验结果表明,该方法在处理镜面反射和透明物体等具有挑战性的场景时,表现出卓越的鲁棒性。具体性能数据未知,但论文强调了其显著优于现有方法。

🎯 应用场景

Stereo Anywhere具有广泛的应用前景,例如自动驾驶、机器人导航、三维重建、虚拟现实等。该方法能够在各种复杂场景下实现鲁棒的立体匹配,为这些应用提供可靠的深度信息。尤其是在光照条件恶劣、纹理信息不足的环境下,该方法的优势更加明显。未来,该方法有望应用于移动机器人、无人机等领域,实现更智能化的环境感知。

📄 摘要(原文)

We introduce Stereo Anywhere, a novel stereo-matching framework that combines geometric constraints with robust priors from monocular depth Vision Foundation Models (VFMs). By elegantly coupling these complementary worlds through a dual-branch architecture, we seamlessly integrate stereo matching with learned contextual cues. Following this design, our framework introduces novel cost volume fusion mechanisms that effectively handle critical challenges such as textureless regions, occlusions, and non-Lambertian surfaces. Through our novel optical illusion dataset, MonoTrap, and extensive evaluation across multiple benchmarks, we demonstrate that our synthetic-only trained model achieves state-of-the-art results in zero-shot generalization, significantly outperforming existing solutions while showing remarkable robustness to challenging cases such as mirrors and transparencies.