Boosting Omnidirectional Stereo Matching with a Pre-trained Depth Foundation Model

📄 arXiv: 2503.23502v3 📥 PDF

作者: Jannik Endres, Oliver Hahn, Charles Corbière, Simone Schaub-Meyer, Stefan Roth, Alexandre Alahi

分类: cs.CV, cs.AI, cs.LG, cs.RO

发布日期: 2025-03-30 (更新: 2025-10-28)

备注: Accepted at IROS 2025. Project page: https://vita-epfl.github.io/DFI-OmniStereo-website/


💡 一句话要点

DFI-OmniStereo:利用预训练深度模型提升全景立体匹配精度

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 全景立体匹配 深度估计 预训练模型 深度学习 移动机器人

📋 核心要点

  1. 现有全景立体匹配方法在不同环境、深度范围和光照条件下,由于真实世界数据的稀缺性,深度精度有限。
  2. DFI-OmniStereo利用预训练的深度基础模型进行相对单目深度估计,并结合迭代优化立体匹配架构,提升深度估计的准确性。
  3. 在Helvipad数据集上的实验表明,DFI-OmniStereo显著优于现有方法,视差MAE降低约16%,实现了最先进的性能。

📝 摘要(中文)

本文提出了一种名为DFI-OmniStereo的新型全景立体匹配方法,该方法利用大规模预训练的深度基础模型,在迭代优化立体匹配架构中进行相对单目深度估计。针对全景立体匹配,本文设计了一个专门的两阶段训练策略,先利用相对单目深度特征,然后进行尺度不变微调。在真实世界的Helvipad数据集上,DFI-OmniStereo取得了最先进的结果,与之前最好的全景立体方法相比,视差MAE降低了约16%。该方法旨在解决移动机器人应用中对360°全方位场景理解的全景深度感知问题,通过经济高效的立体深度估计生成高分辨率深度图。

🔬 方法详解

问题定义:全景立体匹配旨在从全景图像对中恢复场景的深度信息,对于移动机器人等应用至关重要。然而,现有方法在处理真实场景时,由于数据稀缺、环境复杂等因素,深度估计的精度和鲁棒性受到限制,难以满足实际应用的需求。

核心思路:本文的核心思路是利用大规模预训练的深度基础模型,学习图像的深度先验知识,从而指导全景立体匹配过程。通过将预训练模型的相对深度估计能力融入到立体匹配框架中,可以有效提高深度估计的准确性和鲁棒性。这种方法借鉴了迁移学习的思想,将从大规模数据集中学到的知识迁移到全景立体匹配任务中。

技术框架:DFI-OmniStereo的整体架构是一个迭代优化框架,主要包含以下几个模块:1) 特征提取:使用卷积神经网络提取左右图像的特征;2) 相对深度估计:利用预训练的深度基础模型,估计左右图像的相对深度图;3) 立体匹配:基于特征和相对深度信息,进行迭代优化,计算视差图;4) 深度图生成:将视差图转换为深度图。该框架通过迭代优化,逐步提高深度估计的精度。

关键创新:该方法最重要的技术创新点在于将预训练的深度基础模型引入到全景立体匹配中。与传统的立体匹配方法相比,DFI-OmniStereo能够利用预训练模型学习到的深度先验知识,从而提高深度估计的准确性和鲁棒性。此外,本文还提出了一个专门的两阶段训练策略,以更好地利用预训练模型的相对深度特征。

关键设计:两阶段训练策略是关键设计之一。第一阶段,利用相对单目深度特征进行全景立体匹配的预训练。第二阶段,进行尺度不变微调,以适应全景图像的特殊几何结构。损失函数包括光度一致性损失、平滑损失和深度一致性损失。网络结构方面,采用了U-Net结构的卷积神经网络作为特征提取器和深度估计器。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DFI-OmniStereo在Helvipad数据集上取得了显著的性能提升,视差MAE降低了约16%,超过了之前最好的全景立体匹配方法。这一结果表明,利用预训练深度模型可以有效提高全景立体匹配的精度。此外,该方法在不同环境和光照条件下都表现出较好的鲁棒性,具有较强的实用价值。

🎯 应用场景

该研究成果可广泛应用于移动机器人、自动驾驶、虚拟现实等领域。在移动机器人领域,全景深度感知能力可以帮助机器人更好地理解周围环境,实现自主导航和避障。在自动驾驶领域,可以提高车辆对周围环境的感知能力,增强驾驶安全性。在虚拟现实领域,可以生成更逼真的三维场景,提升用户体验。未来,该技术有望进一步发展,应用于更多需要全方位场景理解的领域。

📄 摘要(原文)

Omnidirectional depth perception is essential for mobile robotics applications that require scene understanding across a full 360° field of view. Camera-based setups offer a cost-effective option by using stereo depth estimation to generate dense, high-resolution depth maps without relying on expensive active sensing. However, existing omnidirectional stereo matching approaches achieve only limited depth accuracy across diverse environments, depth ranges, and lighting conditions, due to the scarcity of real-world data. We present DFI-OmniStereo, a novel omnidirectional stereo matching method that leverages a large-scale pre-trained foundation model for relative monocular depth estimation within an iterative optimization-based stereo matching architecture. We introduce a dedicated two-stage training strategy to utilize the relative monocular depth features for our omnidirectional stereo matching before scale-invariant fine-tuning. DFI-OmniStereo achieves state-of-the-art results on the real-world Helvipad dataset, reducing disparity MAE by approximately 16% compared to the previous best omnidirectional stereo method.