MP-SfM: Monocular Surface Priors for Robust Structure-from-Motion

📄 arXiv: 2504.20040v1 📥 PDF

作者: Zador Pataki, Paul-Edouard Sarlin, Johannes L. Schönberger, Marc Pollefeys

分类: cs.CV, cs.RO

发布日期: 2025-04-28

备注: CVPR 2025

🔗 代码/项目: GITHUB


💡 一句话要点

MP-SfM:利用单目表面先验实现鲁棒的Structure-from-Motion

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: Structure-from-Motion 单目视觉 深度估计 表面法线 深度学习 三维重建 Bundle Adjustment

📋 核心要点

  1. 传统SfM在低重叠、低视差或高对称性场景下,面对极端视角变化时容易失败,限制了其广泛应用。
  2. 该论文提出MP-SfM,利用深度学习得到的单目深度和法线先验,增强传统SfM的鲁棒性。
  3. 实验表明,MP-SfM在极端视角变化下显著优于现有方法,并能有效处理对称性引起的错误匹配。

📝 摘要(中文)

本文提出了一种新的Structure-from-Motion (SfM) 方法,通过深度神经网络推断的单目深度和法线先验来增强传统的SfM流程。现有的SfM系统在低重叠、低视差或高对称性的场景中,面对极端的视角变化时容易失效。为了克服这些限制,该方法紧密结合了单目和多视几何约束。实验结果表明,在极端视角变化下,该方法显著优于现有方法,并在标准条件下保持了强大的性能。此外,单目先验有助于抑制由对称性引起的错误匹配,这长期以来一直是SfM的一个难题。该方法能够可靠地重建具有挑战性的室内环境。通过可靠的不确定性传播,该方法对先验中的误差具有鲁棒性,可以处理由不同模型推断的先验,并且可以轻松地从单目深度和法线估计的未来进展中受益。代码已公开。

🔬 方法详解

问题定义:现有的Structure-from-Motion (SfM) 方法在处理具有挑战性的场景时,例如低纹理、重复结构、大视角变化或低视差等,容易出现重建失败。这些场景在实际应用中非常常见,尤其是在室内环境中。现有方法对初始化的精度要求较高,容易受到噪声和错误匹配的影响。

核心思路:该论文的核心思路是将深度学习得到的单目深度和法线信息作为先验知识,融入到传统的SfM框架中。通过单目先验提供额外的几何约束,可以有效地解决传统SfM在上述挑战性场景中遇到的问题。这种方法能够提高SfM的鲁棒性和准确性,并减少对高质量初始化的依赖。

技术框架:MP-SfM的整体框架包括以下几个主要步骤:1) 图像特征提取与匹配;2) 单目深度和法线估计(使用预训练的深度神经网络);3) 将单目深度和法线先验融入到SfM优化过程中,作为额外的约束项;4) 全局Bundle Adjustment优化,同时优化相机位姿和场景结构。该框架允许灵活地使用不同的单目深度和法线估计模型。

关键创新:该方法最重要的创新点在于将深度学习得到的单目表面先验知识与传统的SfM框架紧密结合。与以往尝试使用深度学习辅助SfM的方法不同,MP-SfM不是简单地使用深度信息进行初始化,而是将其作为一种持续的约束,在整个优化过程中发挥作用。此外,该方法还考虑了单目先验的不确定性,并采用了一种 principled 的方式进行传播,从而提高了算法的鲁棒性。

关键设计:在优化过程中,单目深度和法线先验被作为额外的能量项加入到Bundle Adjustment的损失函数中。这些能量项的设计考虑了先验的不确定性,使用了Huber损失函数来降低异常值的影响。此外,该方法还采用了RANSAC等鲁棒估计方法来处理错误匹配。对于单目深度和法线估计,可以使用不同的预训练模型,而无需进行额外的微调。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,MP-SfM在具有挑战性的室内场景中显著优于现有的SfM方法。在极端视角变化下,MP-SfM的重建成功率明显高于其他方法。此外,MP-SfM还能够有效地抑制由对称性引起的错误匹配,从而提高了重建的准确性。与传统的SfM方法相比,MP-SfM在重建精度和鲁棒性方面均有显著提升。

🎯 应用场景

MP-SfM具有广泛的应用前景,尤其是在室内场景重建、机器人导航、增强现实和虚拟现实等领域。该方法能够处理具有挑战性的场景,例如低纹理、重复结构和极端视角变化等,从而可以用于创建更精确和鲁棒的三维模型。此外,该方法还可以用于辅助机器人进行环境感知和导航,以及为AR/VR应用提供更逼真的场景渲染。

📄 摘要(原文)

While Structure-from-Motion (SfM) has seen much progress over the years, state-of-the-art systems are prone to failure when facing extreme viewpoint changes in low-overlap, low-parallax or high-symmetry scenarios. Because capturing images that avoid these pitfalls is challenging, this severely limits the wider use of SfM, especially by non-expert users. We overcome these limitations by augmenting the classical SfM paradigm with monocular depth and normal priors inferred by deep neural networks. Thanks to a tight integration of monocular and multi-view constraints, our approach significantly outperforms existing ones under extreme viewpoint changes, while maintaining strong performance in standard conditions. We also show that monocular priors can help reject faulty associations due to symmetries, which is a long-standing problem for SfM. This makes our approach the first capable of reliably reconstructing challenging indoor environments from few images. Through principled uncertainty propagation, it is robust to errors in the priors, can handle priors inferred by different models with little tuning, and will thus easily benefit from future progress in monocular depth and normal estimation. Our code is publicly available at https://github.com/cvg/mpsfm.