NPLMV-PS: Neural Point-Light Multi-View Photometric Stereo

📄 arXiv: 2405.12057v3 📥 PDF

作者: Fotios Logothetis, Ignas Budvytis, Roberto Cipolla

分类: cs.CV

发布日期: 2024-05-20 (更新: 2024-11-28)


💡 一句话要点

提出NPLMV-PS,一种利用神经渲染的点光源多视角光度立体方法,提升三维重建精度。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 多视角光度立体 神经渲染 三维重建 形状表示 光线追踪

📋 核心要点

  1. 传统多视角光度立体方法依赖法线估计,精度受限,且对稀疏视角鲁棒性差。
  2. NPLMV-PS显式利用逐像素强度渲染,建模点光源衰减和阴影,更精确估计入射辐射。
  3. 实验表明,NPLMV-PS在精度和稀疏视角鲁棒性上均优于现有方法,倒角距离达到0.2mm。

📝 摘要(中文)

本文提出了一种新颖的多视角光度立体(MVPS)方法NPLMV-PS。与许多三维重建工作类似,我们利用神经形状表示和学习渲染器。但与PS-NeRF或Supernormal等最先进的多视角PS方法不同,我们的工作显式地利用了逐像素的强度渲染,而不是主要依赖于估计的法线。我们对点光源衰减进行建模,并显式地进行光线追踪以计算阴影,从而更好地近似每个点的入射辐射。估计的入射辐射被用作全神经材质渲染器的输入,该渲染器使用最少的先验假设,并与表面联合优化。估计的法线和分割图也被纳入,以最大限度地提高表面精度。我们的方法是最早(与Supernormal一起)优于DiLiGenT-MV基准提出的经典MVPS方法之一,对于在约1.5米距离处以约400x400分辨率成像的物体,实现了平均0.2毫米的倒角距离。此外,我们的方法对稀疏MVPS设置(6个视角,6个光源)表现出很高的鲁棒性,大大优于SOTA竞争对手(0.38毫米 vs 0.61毫米),说明了神经渲染在多视角光度立体中的重要性。

🔬 方法详解

问题定义:多视角光度立体旨在从不同视角和光照条件下的图像中重建三维形状。现有方法,如PS-NeRF和Supernormal,主要依赖于估计的法线,这限制了重建精度,并且在视角和光照稀疏的情况下表现不佳。

核心思路:NPLMV-PS的核心思路是显式地利用逐像素的强度渲染,并对点光源的衰减和阴影进行建模,从而更准确地估计每个点的入射辐射。通过将估计的入射辐射输入到全神经材质渲染器中,可以学习到更精确的表面形状和材质属性。

技术框架:NPLMV-PS的整体框架包括以下几个主要模块:1) 神经形状表示:使用神经网络表示三维形状。2) 光源建模:对点光源的衰减和阴影进行建模。3) 光线追踪:进行光线追踪以计算每个点的入射辐射。4) 神经材质渲染器:使用神经材质渲染器将入射辐射转换为图像。5) 联合优化:联合优化形状表示和材质渲染器,以最小化重建误差。

关键创新:NPLMV-PS的关键创新在于显式地利用逐像素强度渲染,并对点光源衰减和阴影进行建模。这与现有方法主要依赖法线估计形成了鲜明对比,使得NPLMV-PS能够更准确地估计入射辐射,从而提高重建精度。

关键设计:NPLMV-PS的关键设计包括:1) 使用MLP表示三维形状。2) 使用球谐函数对点光源的衰减进行建模。3) 使用可微分的光线追踪算法计算阴影。4) 使用全连接神经网络作为神经材质渲染器。5) 使用L1损失和倒角距离作为损失函数,并联合优化形状表示和材质渲染器。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

NPLMV-PS在DiLiGenT-MV基准测试中取得了显著的成果,首次超越了经典MVPS方法。对于在约1.5米距离处以约400x400分辨率成像的物体,实现了平均0.2毫米的倒角距离。在稀疏MVPS设置(6个视角,6个光源)下,NPLMV-PS的性能也大大优于SOTA竞争对手(0.38毫米 vs 0.61毫米)。

🎯 应用场景

NPLMV-PS在三维扫描、文物数字化、工业检测、机器人视觉等领域具有广泛的应用前景。它可以用于高精度地重建物体的三维形状,从而实现更精确的测量、建模和分析。该方法尤其适用于光照条件复杂或视角稀疏的场景。

📄 摘要(原文)

In this work we present a novel multi-view photometric stereo (MVPS) method. Like many works in 3D reconstruction we are leveraging neural shape representations and learnt renderers. However, our work differs from the state-of-the-art multi-view PS methods such as PS-NeRF or Supernormal in that we explicitly leverage per-pixel intensity renderings rather than relying mainly on estimated normals. We model point light attenuation and explicitly raytrace cast shadows in order to best approximate the incoming radiance for each point. The estimated incoming radiance is used as input to a fully neural material renderer that uses minimal prior assumptions and it is jointly optimised with the surface. Estimated normals and segmentation maps are also incorporated in order to maximise the surface accuracy. Our method is among the first (along with Supernormal) to outperform the classical MVPS approach proposed by the DiLiGenT-MV benchmark and achieves average 0.2mm Chamfer distance for objects imaged at approx 1.5m distance away with approximate 400x400 resolution. Moreover, our method shows high robustness to the sparse MVPS setup (6 views, 6 lights) greatly outperforming the SOTA competitor (0.38mm vs 0.61mm), illustrating the importance of neural rendering in multi-view photometric stereo.