Spurfies: Sparse Surface Reconstruction using Local Geometry Priors

📄 arXiv: 2408.16544v1 📥 PDF

作者: Kevin Raj, Christopher Wewer, Raza Yunus, Eddy Ilg, Jan Eric Lenssen

分类: cs.CV

发布日期: 2024-08-29

备注: https://geometric-rl.mpi-inf.mpg.de/spurfies/


💡 一句话要点

Spurfies:利用局部几何先验的稀疏表面重建方法

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 稀疏视角重建 表面重建 局部几何先验 神经渲染 三维重建

📋 核心要点

  1. 现有稀疏视角重建方法依赖联合先验学习,需要大量数据且泛化性差,难以处理少视角场景。
  2. Spurfies解耦几何与外观信息,利用合成数据训练局部几何先验,约束解空间,提升重建质量。
  3. 实验表明,Spurfies在DTU数据集上表面质量提升35%,并可应用于更大、无界的场景。

📝 摘要(中文)

本文提出了一种名为Spurfies的稀疏视角表面重建新方法,该方法解耦了外观和几何信息,从而能够利用在合成数据上训练的局部几何先验。目前的研究主要集中在使用密集多视角设置的3D重建,通常需要数百张图像。然而,这些方法在少视角场景中表现不佳。现有的稀疏视角重建技术通常依赖于多视角立体网络,这些网络需要从大量数据中学习几何和外观的联合先验。相比之下,我们引入了一种神经点表示,它解耦了几何和外观,从而仅使用ShapeNet数据集的一个子集来训练局部几何先验。在推理过程中,我们利用这种表面先验作为额外的约束,通过可微体积渲染从稀疏输入视角重建表面和外观,从而限制了可能的解空间。我们在DTU数据集上验证了我们方法的有效性,并证明其在表面质量方面优于先前的最先进方法35%,同时实现了具有竞争力的新视角合成质量。此外,与之前的工作相比,我们的方法可以应用于更大的、无界的场景,例如Mip-NeRF 360。

🔬 方法详解

问题定义:论文旨在解决从稀疏视角图像中进行高质量三维表面重建的问题。现有方法,特别是基于多视角立体的深度学习方法,通常需要大量的训练数据来学习几何和外观的联合先验,这限制了它们在少视角场景中的应用,并且难以泛化到新的场景。此外,这些方法通常难以处理大规模、无界的场景。

核心思路:论文的核心思路是将几何信息和外观信息解耦,并利用合成数据预训练一个局部几何先验。通过在推理过程中将该先验作为约束,可以有效地限制解空间,从而在稀疏视角下实现更准确的表面重建。这种解耦的设计使得模型可以专注于学习几何形状的通用先验,而无需依赖特定场景的外观信息。

技术框架:Spurfies方法的整体框架包括以下几个主要模块:1) 神经点表示:使用神经点表示来表示三维表面,每个点包含几何信息(如位置和法线)和外观信息(如颜色和反射率)。2) 局部几何先验:使用ShapeNet数据集训练一个局部几何先验网络,该网络学习从局部点云中预测表面法线。3) 可微体积渲染:使用可微体积渲染技术将三维表面渲染成二维图像,并计算渲染图像与输入图像之间的差异。4) 优化:通过优化神经点表示的几何和外观参数,最小化渲染损失和几何先验损失。

关键创新:该方法最重要的技术创新点在于解耦了几何和外观信息,并引入了局部几何先验。与现有方法相比,Spurfies不需要从大量真实数据中学习联合先验,而是可以利用合成数据预训练一个通用的几何先验。这使得Spurfies在少视角场景下具有更好的泛化能力和重建质量。此外,该方法还可以应用于更大、无界的场景。

关键设计:关键设计包括:1) 神经点表示的参数化方式,如何有效地表示几何和外观信息。2) 局部几何先验网络的结构和训练方式,如何从合成数据中学习有效的几何先验。3) 损失函数的设计,如何平衡渲染损失和几何先验损失。4) 可微体积渲染的实现细节,如何高效地计算渲染图像。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Spurfies在DTU数据集上取得了显著的性能提升,表面质量指标优于现有最佳方法35%。此外,该方法还展示了在Mip-NeRF 360等更大、无界场景中的应用潜力,表明其具有良好的泛化能力和可扩展性。实验结果验证了解耦几何和外观信息,并利用局部几何先验的有效性。

🎯 应用场景

Spurfies在机器人导航、自动驾驶、虚拟现实和增强现实等领域具有广泛的应用前景。该方法可以用于从少量图像中重建三维环境地图,从而帮助机器人进行自主导航和场景理解。此外,该方法还可以用于生成高质量的虚拟现实和增强现实内容,例如,从用户上传的几张照片中重建三维人脸模型。

📄 摘要(原文)

We introduce Spurfies, a novel method for sparse-view surface reconstruction that disentangles appearance and geometry information to utilize local geometry priors trained on synthetic data. Recent research heavily focuses on 3D reconstruction using dense multi-view setups, typically requiring hundreds of images. However, these methods often struggle with few-view scenarios. Existing sparse-view reconstruction techniques often rely on multi-view stereo networks that need to learn joint priors for geometry and appearance from a large amount of data. In contrast, we introduce a neural point representation that disentangles geometry and appearance to train a local geometry prior using a subset of the synthetic ShapeNet dataset only. During inference, we utilize this surface prior as additional constraint for surface and appearance reconstruction from sparse input views via differentiable volume rendering, restricting the space of possible solutions. We validate the effectiveness of our method on the DTU dataset and demonstrate that it outperforms previous state of the art by 35% in surface quality while achieving competitive novel view synthesis quality. Moreover, in contrast to previous works, our method can be applied to larger, unbounded scenes, such as Mip-NeRF 360.