MonSter++: Unified Stereo Matching, Multi-view Stereo, and Real-time Stereo with Monodepth Priors
作者: Junda Cheng, Wenjing Liao, Zhipeng Cai, Longliang Liu, Gangwei Xu, Xianqi Wang, Yuzhou Wang, Zikang Yuan, Yong Deng, Jinliang Zang, Yangyang Shi, Jinhui Tang, Xin Yang
分类: cs.CV
发布日期: 2025-01-15 (更新: 2025-09-25)
备注: MonSter++: Unified Stereo Matching, Multi-view Stereo, and Real-time Stereo with Monodepth Priors, is the extended journal version of our earlier conference paper (arXiv:2501.08643) accepted to CVPR 2025
💡 一句话要点
MonSter++:融合单目深度先验的统一立体匹配与多视角立体视觉框架
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 立体匹配 多视角立体视觉 单目深度估计 深度融合 几何建模
📋 核心要点
- 传统立体匹配和多视角立体视觉在缺乏匹配线索的区域表现不佳,是由于缺乏有效的先验信息。
- MonSter++通过融合单目深度先验,利用单目深度估计提供全局上下文信息,指导多视角深度估计。
- 实验表明,MonSter++在多个数据集上超越了现有方法,并在立体匹配、多视角立体视觉和实时立体匹配任务上均取得了SOTA结果。
📝 摘要(中文)
本文提出MonSter++,一个用于多视角深度估计的几何基础模型,统一了校正后的立体匹配和未校正的多视角立体视觉。这两项任务本质上都是从对应关系搜索中恢复度量深度,因此面临着相同的困境:难以处理匹配线索有限的不适定区域。为了解决这个问题,我们提出了MonSter++,一种将单目深度先验集成到多视角深度估计中的新方法,有效地结合了单视角和多视角线索的互补优势。MonSter++将单目深度和多视角深度融合到双分支架构中。基于置信度的引导自适应地选择可靠的多视角线索来校正单目深度中的尺度模糊。反过来,精细化的单目预测有效地引导了不适定区域中的多视角估计。这种迭代的相互增强使MonSter++能够将粗略的对象级单目先验演变为精细的像素级几何,充分释放多视角深度估计的潜力。MonSter++在立体匹配和多视角立体视觉方面都达到了新的state-of-the-art。通过我们的级联搜索和多尺度深度融合策略有效地结合单目先验,我们的实时变体RT-MonSter++也大大优于以前的实时方法。如图1所示,MonSter++在来自三个任务(立体匹配、实时立体匹配和多视角立体视觉)的八个基准测试中,相对于以前的方法取得了显著的改进,证明了我们框架的强大通用性。除了高精度外,MonSter++还展示了卓越的零样本泛化能力。我们将发布大型模型和实时模型,以方便开源社区使用。
🔬 方法详解
问题定义:论文旨在解决立体匹配和多视角立体视觉中,在纹理缺失或遮挡等不适定区域深度估计不准确的问题。现有方法在这些区域依赖局部信息,难以获得可靠的深度估计,导致精度下降。
核心思路:论文的核心思路是将单目深度估计作为先验信息融入到多视角深度估计中。单目深度估计能够提供全局的场景理解,弥补多视角方法在局部信息不足时的缺陷。通过迭代地融合单目和多视角信息,相互修正,从而提高整体的深度估计精度。
技术框架:MonSter++采用双分支架构,分别处理单目深度估计和多视角深度估计。首先,利用单目深度估计网络预测初始深度图。然后,通过置信度引导模块,选择可靠的多视角匹配信息来校正单目深度图的尺度模糊。接着,将修正后的单目深度图作为先验,引导多视角深度估计网络在不适定区域进行更准确的深度搜索。最后,通过多尺度深度融合策略,将不同尺度的深度估计结果进行融合,得到最终的深度图。
关键创新:该论文的关键创新在于将单目深度估计和多视角深度估计进行有效融合,提出了一个迭代的相互增强框架。通过置信度引导机制,自适应地选择可靠的多视角信息来校正单目深度,同时利用单目深度先验来指导多视角深度估计,从而克服了传统方法在不适定区域的局限性。
关键设计:论文采用了级联搜索策略,逐步细化深度估计结果。在损失函数方面,使用了深度回归损失和置信度损失,以提高深度估计的准确性和置信度。网络结构方面,采用了多尺度特征提取和融合,以获取更丰富的上下文信息。实时版本RT-MonSter++则通过模型压缩和优化,实现了在保证精度的情况下,显著提升推理速度。
🖼️ 关键图片
📊 实验亮点
MonSter++在多个数据集上取得了显著的性能提升。在立体匹配任务中,超越了PSMNet等经典方法。在多视角立体视觉任务中,相比COLMAP等传统方法,精度大幅提升。实时版本RT-MonSter++在保持较高精度的同时,实现了实时推理,优于之前的实时立体匹配方法。
🎯 应用场景
MonSter++在自动驾驶、机器人导航、三维重建、虚拟现实等领域具有广泛的应用前景。高精度的深度估计能够提升自动驾驶系统的环境感知能力,帮助机器人更好地理解和操作周围环境,为三维重建提供更准确的几何信息,并增强虚拟现实的沉浸感。
📄 摘要(原文)
We introduce MonSter++, a geometric foundation model for multi-view depth estimation, unifying rectified stereo matching and unrectified multi-view stereo. Both tasks fundamentally recover metric depth from correspondence search and consequently face the same dilemma: struggling to handle ill-posed regions with limited matching cues. To address this, we propose MonSter++, a novel method that integrates monocular depth priors into multi-view depth estimation, effectively combining the complementary strengths of single-view and multi-view cues. MonSter++ fuses monocular depth and multi-view depth into a dual-branched architecture. Confidence-based guidance adaptively selects reliable multi-view cues to correct scale ambiguity in monocular depth. The refined monocular predictions, in turn, effectively guide multi-view estimation in ill-posed regions. This iterative mutual enhancement enables MonSter++ to evolve coarse object-level monocular priors into fine-grained, pixel-level geometry, fully unlocking the potential of multi-view depth estimation. MonSter++ achieves new state-of-the-art on both stereo matching and multi-view stereo. By effectively incorporating monocular priors through our cascaded search and multi-scale depth fusion strategy, our real-time variant RT-MonSter++ also outperforms previous real-time methods by a large margin. As shown in Fig.1, MonSter++ achieves significant improvements over previous methods across eight benchmarks from three tasks -- stereo matching, real-time stereo matching, and multi-view stereo, demonstrating the strong generality of our framework. Besides high accuracy, MonSter++ also demonstrates superior zero-shot generalization capability. We will release both the large and the real-time models to facilitate their use by the open-source community.