Learning Deformable Hypothesis Sampling for Accurate PatchMatch Multi-View Stereo

📄 arXiv: 2312.15970v1 📥 PDF

作者: Hongjie Li, Yao Guo, Xianwei Zheng, Hanjiang Xiong

分类: cs.CV

发布日期: 2023-12-26

🔗 代码/项目: GITHUB


💡 一句话要点

提出可变形假设采样器,提升PatchMatch多视角立体重建精度

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 多视角立体重建 深度估计 PatchMatch 可变形采样 深度学习

📋 核心要点

  1. 现有PatchMatch MVS方法在深度假设采样时,未能充分考虑物体表面的分段平滑特性和深度预测概率的多峰分布。
  2. 论文提出DeformSampler,通过学习分布敏感的采样空间,实现几何一致的深度传播和更精确的深度概率分布拟合。
  3. 实验表明,该方法在DTU和Tanks & Temples数据集上优于现有技术,尤其在弱纹理和不连续表面区域性能提升显著。

📝 摘要(中文)

本文提出了一种可学习的可变形假设采样器(DeformSampler),旨在解决PatchMatch多视角立体重建中深度估计易受噪声干扰的问题。我们观察到,PatchMatch MVS求解器中使用的启发式深度假设采样模式对以下两点不敏感:(i)物体表面深度分段平滑分布,以及(ii)表面点沿光线方向深度预测概率的隐式多峰分布。因此,我们开发了DeformSampler来学习对分布敏感的采样空间,以(i)传播与场景几何一致的深度,以及(ii)拟合逼近沿光线方向实际深度点状概率分布的拉普拉斯混合模型。我们将DeformSampler集成到可学习的PatchMatch MVS系统中,以增强在具有挑战性区域(如分段不连续表面边界和弱纹理区域)中的深度估计。在DTU和Tanks & Temples数据集上的实验结果表明,与最先进的竞争对手相比,该方法具有卓越的性能和泛化能力。

🔬 方法详解

问题定义:PatchMatch MVS在深度估计过程中,容易受到噪声的影响,尤其是在弱纹理区域和深度不连续的表面边界。现有的启发式深度假设采样方法无法有效地适应物体表面的几何结构和深度概率分布,导致深度估计精度下降。

核心思路:论文的核心思路是学习一个可变形的采样器(DeformSampler),使其能够根据场景的几何结构和深度概率分布自适应地调整采样空间。通过学习到的采样空间,可以更好地传播与场景几何一致的深度,并拟合更精确的深度概率分布。

技术框架:该方法将DeformSampler集成到可学习的PatchMatch MVS系统中。整体流程包括:输入多视角图像,利用DeformSampler生成深度假设,然后通过PatchMatch算法进行深度图优化,最后得到重建的三维模型。DeformSampler作为PatchMatch MVS流程中的一个关键模块,负责生成高质量的深度假设。

关键创新:该方法最重要的创新点在于DeformSampler的学习机制。DeformSampler能够学习到对场景几何和深度概率分布敏感的采样空间,从而克服了传统启发式采样方法的局限性。与现有方法相比,DeformSampler能够更有效地利用图像信息,生成更准确的深度假设。

关键设计:DeformSampler通过学习一组形变场来调整采样空间。这些形变场由神经网络预测,网络的输入是图像特征和初始深度假设。损失函数的设计考虑了深度一致性和概率分布拟合。具体来说,损失函数包括:(1)深度一致性损失,用于保证相邻像素的深度一致性;(2)概率分布拟合损失,用于使采样得到的深度概率分布逼近真实的深度概率分布(使用拉普拉斯混合模型建模)。

📊 实验亮点

实验结果表明,该方法在DTU数据集和Tanks & Temples数据集上均取得了显著的性能提升。在DTU数据集上,该方法在精度和完整性方面均优于现有方法。在Tanks & Temples数据集上,该方法在重建质量方面也取得了显著的提升,尤其是在弱纹理区域和深度不连续区域。与state-of-the-art方法相比,该方法能够更准确地重建场景的几何结构。

🎯 应用场景

该研究成果可应用于三维重建、虚拟现实、自动驾驶等领域。高精度的多视角立体重建是这些应用的关键技术之一。通过提升深度估计的精度和鲁棒性,可以改善三维模型的质量,从而提高相关应用的性能和用户体验。未来,该方法有望在更复杂的场景和更大规模的数据集上得到应用。

📄 摘要(原文)

This paper introduces a learnable Deformable Hypothesis Sampler (DeformSampler) to address the challenging issue of noisy depth estimation for accurate PatchMatch Multi-View Stereo (MVS). We observe that the heuristic depth hypothesis sampling modes employed by PatchMatch MVS solvers are insensitive to (i) the piece-wise smooth distribution of depths across the object surface, and (ii) the implicit multi-modal distribution of depth prediction probabilities along the ray direction on the surface points. Accordingly, we develop DeformSampler to learn distribution-sensitive sample spaces to (i) propagate depths consistent with the scene's geometry across the object surface, and (ii) fit a Laplace Mixture model that approaches the point-wise probabilities distribution of the actual depths along the ray direction. We integrate DeformSampler into a learnable PatchMatch MVS system to enhance depth estimation in challenging areas, such as piece-wise discontinuous surface boundaries and weakly-textured regions. Experimental results on DTU and Tanks \& Temples datasets demonstrate its superior performance and generalization capabilities compared to state-of-the-art competitors. Code is available at https://github.com/Geo-Tell/DS-PMNet.