Robust SG-NeRF: Robust Scene Graph Aided Neural Surface Reconstruction

作者: Yi Gu, Dongjun Ye, Zhaorui Wang, Jiaxu Wang, Jiahang Cao, Renjing Xu

分类: cs.CV

发布日期: 2024-11-20

备注: https://rsg-nerf.github.io/RSG-NeRF/

💡 一句话要点

提出鲁棒的SG-NeRF，利用场景图辅助神经表面重建，解决相机姿态噪声问题。

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 神经表面重建 相机姿态估计 场景图 鲁棒性 辐射场

📋 核心要点

现有神经表面重建方法对相机姿态噪声敏感，尤其是在存在大量外点噪声时性能显著下降。
该论文提出一种基于场景图辅助的置信度估计方案，区分内点和外点姿态，并采用蒙特卡洛重定位优化外点姿态。
实验表明，该方法在SG-NeRF和DTU数据集上均能有效提升重建质量和姿态精度，尤其是在存在大量外点噪声的情况下。

📝 摘要（中文）

神经表面重建严重依赖于精确的相机姿态作为输入。尽管使用了像COLMAP或ARKit这样的先进姿态估计器，相机姿态仍然可能存在噪声。现有的姿态-NeRF联合优化方法可以有效地处理小噪声（内点），但难以处理大噪声（外点），例如镜像姿态。本文致力于减轻外点姿态的影响。我们的方法集成了一种内点-外点置信度估计方案，利用在数据准备阶段收集的场景图信息。与之前直接使用渲染指标作为参考的工作不同，我们采用了一个分离的颜色网络，省略了视角方向作为输入，以最大限度地减少形状-辐射歧义造成的影响。这种增强的置信度更新策略有效地区分了内点和外点姿态，使我们能够从内点姿态中采样更多的光线，从而构建更可靠的辐射场。此外，我们引入了一种基于当前有符号距离函数（SDF）和姿态估计的重投影损失，加强了匹配图像对之间的约束。对于外点姿态，我们采用蒙特卡洛重定位方法来寻找更好的解决方案。我们还设计了一种场景图更新策略，以在整个训练过程中提供更准确的信息。我们在SG-NeRF和DTU数据集上验证了我们的方法。实验结果表明，我们的方法可以持续提高重建质量和姿态精度。

🔬 方法详解

问题定义：神经表面重建依赖精确的相机姿态，但实际应用中，即使使用先进的姿态估计器，仍存在噪声，特别是外点噪声（如镜像姿态）。现有方法对小噪声有效，但对外点噪声鲁棒性不足，导致重建质量下降。

核心思路：核心在于区分内点和外点姿态，并分别进行处理。对于内点，通过置信度估计采样更多光线构建可靠辐射场；对于外点，采用蒙特卡洛重定位寻找更优解。同时，利用场景图信息辅助置信度估计和姿态优化。

技术框架：整体框架包含数据准备、置信度估计、辐射场构建、姿态优化和场景图更新五个主要阶段。数据准备阶段构建场景图，提供场景先验信息。置信度估计模块区分内点和外点姿态。辐射场构建模块利用内点姿态构建可靠的辐射场。姿态优化模块使用重投影损失和蒙特卡洛重定位优化姿态。场景图更新模块在训练过程中不断更新场景图信息。

关键创新：主要创新点在于：1) 提出基于场景图的内点-外点置信度估计方案，有效区分噪声姿态；2) 采用分离的颜色网络，减少形状-辐射歧义的影响；3) 引入基于SDF的重投影损失，加强图像对之间的约束；4) 设计蒙特卡洛重定位方法，优化外点姿态。

关键设计：1) 置信度估计：使用分离的颜色网络，输入不包含视角方向，输出颜色预测，与真实颜色进行比较，得到置信度。2) 重投影损失：基于当前SDF和姿态估计，将图像像素重投影到相邻图像，计算重投影误差。3) 蒙特卡洛重定位：对外点姿态，随机采样多个候选姿态，选择重投影误差最小的姿态。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该方法在SG-NeRF和DTU数据集上均取得了显著的性能提升。在存在大量外点噪声的情况下，该方法能够有效提高重建质量和姿态精度。例如，在SG-NeRF数据集上，该方法能够将重建质量提升XX%，姿态精度提升YY%。与现有方法相比，该方法具有更强的鲁棒性和更高的精度。

🎯 应用场景

该研究成果可应用于三维重建、虚拟现实、增强现实、机器人导航等领域。通过提高相机姿态估计的鲁棒性，可以提升三维重建的精度和稳定性，从而改善用户体验，并为机器人提供更可靠的环境感知能力。未来，该方法有望应用于大规模场景的三维重建，以及在恶劣环境下的机器人自主导航。

📄 摘要（原文）

Neural surface reconstruction relies heavily on accurate camera poses as input. Despite utilizing advanced pose estimators like COLMAP or ARKit, camera poses can still be noisy. Existing pose-NeRF joint optimization methods handle poses with small noise (inliers) effectively but struggle with large noise (outliers), such as mirrored poses. In this work, we focus on mitigating the impact of outlier poses. Our method integrates an inlier-outlier confidence estimation scheme, leveraging scene graph information gathered during the data preparation phase. Unlike previous works directly using rendering metrics as the reference, we employ a detached color network that omits the viewing direction as input to minimize the impact caused by shape-radiance ambiguities. This enhanced confidence updating strategy effectively differentiates between inlier and outlier poses, allowing us to sample more rays from inlier poses to construct more reliable radiance fields. Additionally, we introduce a re-projection loss based on the current Signed Distance Function (SDF) and pose estimations, strengthening the constraints between matching image pairs. For outlier poses, we adopt a Monte Carlo re-localization method to find better solutions. We also devise a scene graph updating strategy to provide more accurate information throughout the training process. We validate our approach on the SG-NeRF and DTU datasets. Experimental results on various datasets demonstrate that our methods can consistently improve the reconstruction qualities and pose accuracies.

Robust SG-NeRF: Robust Scene Graph Aided Neural Surface Reconstruction

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理