Lightweight and Accurate Multi-View Stereo with Confidence-Aware Diffusion Model

📄 arXiv: 2509.15220v1 📥 PDF

作者: Fangjinhua Wang, Qingshan Xu, Yew-Soon Ong, Marc Pollefeys

分类: cs.CV

发布日期: 2025-09-18

备注: Accepted to IEEE T-PAMI 2025. Code: https://github.com/cvg/diffmvs

DOI: 10.1109/TPAMI.2025.3597148

🔗 代码/项目: GITHUB


💡 一句话要点

提出基于置信度感知扩散模型的高效轻量多视角立体匹配方法

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 多视角立体匹配 扩散模型 深度估计 三维重建 条件扩散模型

📋 核心要点

  1. 现有基于学习的MVS方法计算效率较低,通常需要从粗到精逐步细化深度图。
  2. 本文提出将扩散模型引入MVS,将深度细化建模为条件扩散过程,并设计条件编码器指导扩散。
  3. 提出的DiffMVS在效率上具有竞争力,CasDiffMVS在DTU、Tanks & Temples和ETH3D数据集上达到SOTA。

📝 摘要(中文)

本文提出了一种新颖的多视角立体匹配(MVS)框架,该框架将扩散模型引入MVS中。具体而言,我们将深度细化建模为一个条件扩散过程。考虑到深度估计的判别特性,我们设计了一个条件编码器来指导扩散过程。为了提高效率,我们提出了一种结合轻量级2D U-Net和卷积GRU的新型扩散网络。此外,我们提出了一种新颖的基于置信度的采样策略,以基于扩散模型估计的置信度自适应地采样深度假设。基于我们新颖的MVS框架,我们提出了两种新颖的MVS方法,DiffMVS和CasDiffMVS。DiffMVS在运行时间和GPU内存方面实现了与最先进水平相当的性能。CasDiffMVS在DTU、Tanks & Temples和ETH3D上实现了最先进的性能。

🔬 方法详解

问题定义:多视角立体匹配(MVS)旨在从多张已校准的图像中重建3D几何结构。现有的基于学习的MVS方法通常计算量大,效率低,尤其是在高分辨率下。许多方法采用由粗到精的策略,但仍然面临计算资源消耗大的问题。

核心思路:本文的核心思路是将扩散模型引入到MVS任务中,利用扩散模型强大的生成能力来细化深度图。通过将深度图的细化过程建模成一个条件扩散过程,可以从随机噪声逐步恢复出高质量的深度图。同时,利用条件编码器来指导扩散过程,使其能够更好地利用多视角图像的信息。

技术框架:该MVS框架主要包含以下几个模块:1) 条件编码器:用于提取多视角图像的特征,并将其作为条件信息输入到扩散模型中。2) 扩散模型:采用轻量级的2D U-Net和卷积GRU结合的网络结构,用于逐步细化深度图。3) 置信度估计模块:基于扩散模型的输出,估计每个深度假设的置信度。4) 深度假设采样模块:根据置信度自适应地采样深度假设。整体流程是从初始的粗糙深度图开始,通过条件编码器提取图像特征,然后利用扩散模型逐步细化深度图,并根据置信度进行深度假设采样,最终得到高精度的深度图。

关键创新:本文的关键创新在于将扩散模型引入到MVS任务中,并提出了一种基于置信度的自适应深度假设采样策略。与传统的MVS方法相比,该方法能够更有效地利用多视角图像的信息,并生成更高质量的深度图。此外,轻量级的网络结构设计也提高了计算效率。

关键设计:1) 扩散模型采用轻量级的2D U-Net和卷积GRU结合的网络结构,以减少计算量。2) 条件编码器采用多层卷积神经网络,用于提取多视角图像的特征。3) 置信度估计模块基于扩散模型的输出,采用sigmoid函数预测每个深度假设的置信度。4) 损失函数包括深度图的L1损失和置信度的交叉熵损失。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DiffMVS在运行时间和GPU内存占用方面达到了与现有SOTA方法相当的水平。CasDiffMVS在DTU、Tanks & Temples和ETH3D数据集上取得了SOTA性能,显著提升了三维重建的精度。代码已开源,方便研究人员复现和进一步研究。

🎯 应用场景

该研究成果可应用于三维重建、自动驾驶、机器人导航、虚拟现实等领域。高精度、高效率的多视角立体匹配技术能够为这些应用提供可靠的三维几何信息,提升系统的性能和鲁棒性。未来,该方法有望在资源受限的移动设备或嵌入式平台上实现高效的三维重建。

📄 摘要(原文)

To reconstruct the 3D geometry from calibrated images, learning-based multi-view stereo (MVS) methods typically perform multi-view depth estimation and then fuse depth maps into a mesh or point cloud. To improve the computational efficiency, many methods initialize a coarse depth map and then gradually refine it in higher resolutions. Recently, diffusion models achieve great success in generation tasks. Starting from a random noise, diffusion models gradually recover the sample with an iterative denoising process. In this paper, we propose a novel MVS framework, which introduces diffusion models in MVS. Specifically, we formulate depth refinement as a conditional diffusion process. Considering the discriminative characteristic of depth estimation, we design a condition encoder to guide the diffusion process. To improve efficiency, we propose a novel diffusion network combining lightweight 2D U-Net and convolutional GRU. Moreover, we propose a novel confidence-based sampling strategy to adaptively sample depth hypotheses based on the confidence estimated by diffusion model. Based on our novel MVS framework, we propose two novel MVS methods, DiffMVS and CasDiffMVS. DiffMVS achieves competitive performance with state-of-the-art efficiency in run-time and GPU memory. CasDiffMVS achieves state-of-the-art performance on DTU, Tanks & Temples and ETH3D. Code is available at: https://github.com/cvg/diffmvs.