Depth Reconstruction with Neural Signed Distance Fields in Structured Light Systems

📄 arXiv: 2405.12006v1 📥 PDF

作者: Rukun Qiao, Hiroshi Kawasaki, Hongbin Zha

分类: cs.CV

发布日期: 2024-05-20

备注: 10 pages, 8 figures, accepted by 3DV 2024


💡 一句话要点

提出基于神经符号距离场的结构光三维重建方法,提升几何精度

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 结构光 三维重建 神经隐式表示 符号距离场 可微渲染

📋 核心要点

  1. 传统方法在结构光三维重建中,难以兼顾精度和鲁棒性,尤其是在数据量较少的情况下。
  2. 该论文利用神经隐式表示的优势,通过优化神经符号距离场(SDF)来重建三维几何,无需联合估计辐射场。
  3. 实验结果表明,该方法在少样本场景下,几何精度优于现有方法,证明了其有效性。

📝 摘要(中文)

本文提出了一种用于多帧结构光系统中深度估计的新技术,该技术利用三维空间的神经隐式表示。我们的方法采用神经符号距离场(SDF),通过自监督可微渲染进行训练。与被动视觉需要联合估计辐射场和几何场不同,我们利用结构光系统中投影图案的已知辐射场。这使得能够隔离优化几何场,确保在固定设备定位下网络的收敛性和有效性。为了提高几何保真度,我们在训练过程中结合了基于物体表面的额外颜色损失。真实世界的实验表明,我们的方法在少样本场景中的几何性能优于现有方法,同时在增加图案可用性的情况下实现了可比的结果。

🔬 方法详解

问题定义:论文旨在解决结构光系统中三维深度重建的问题。现有方法,尤其是在数据量较少(few-shot)的情况下,难以达到高精度和鲁棒性。传统方法可能对噪声敏感,或者需要大量的标定数据。

核心思路:论文的核心思路是利用神经隐式表示,特别是神经符号距离场(SDF),来表示三维场景的几何信息。通过优化SDF,可以得到场景的精确三维模型。与被动视觉不同,结构光系统已知投影图案的辐射场,因此可以单独优化几何场,简化了训练过程。

技术框架:整体框架包括以下几个主要步骤:1) 使用结构光系统投影一系列图案到物体表面;2) 捕获带有图案的图像;3) 使用捕获的图像训练神经SDF网络;4) 通过可微渲染优化SDF,使其与观测到的图像一致;5) 从训练好的SDF中提取三维几何信息。

关键创新:最重要的创新点在于利用结构光系统的特性,将辐射场解耦,从而可以单独优化几何场。这避免了被动视觉中联合优化辐射场和几何场的复杂性,提高了训练效率和重建精度。此外,引入了基于物体表面的颜色损失,进一步提升了几何保真度。

关键设计:关键设计包括:1) 使用MLP网络表示SDF;2) 使用可微渲染将SDF渲染成图像,并与捕获的图像进行比较,计算损失;3) 使用颜色损失来约束物体表面的颜色一致性;4) 针对少样本场景,设计了合适的网络结构和训练策略。具体的网络结构和损失函数细节在论文中应该有更详细的描述(未知)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在少样本场景下,几何精度优于现有方法。具体而言,在真实世界数据集上,该方法在少量图案(few-shot)的情况下,能够获得比传统方法更高的重建精度。当使用更多图案时,该方法也能达到与现有方法相当的性能,同时保持了较好的鲁棒性。具体的性能指标和对比基线需要在论文中查找(未知)。

🎯 应用场景

该研究成果可应用于工业检测、逆向工程、机器人导航、三维扫描等领域。在工业检测中,可以用于高精度地检测零件的缺陷。在逆向工程中,可以用于快速地重建物体的三维模型。在机器人导航中,可以用于感知周围环境,实现自主导航。该方法在少样本场景下的优势,使其在快速原型设计和定制化生产中具有潜在的应用价值。

📄 摘要(原文)

We introduce a novel depth estimation technique for multi-frame structured light setups using neural implicit representations of 3D space. Our approach employs a neural signed distance field (SDF), trained through self-supervised differentiable rendering. Unlike passive vision, where joint estimation of radiance and geometry fields is necessary, we capitalize on known radiance fields from projected patterns in structured light systems. This enables isolated optimization of the geometry field, ensuring convergence and network efficacy with fixed device positioning. To enhance geometric fidelity, we incorporate an additional color loss based on object surfaces during training. Real-world experiments demonstrate our method's superiority in geometric performance for few-shot scenarios, while achieving comparable results with increased pattern availability.