DeclutterNeRF: Generative-Free 3D Scene Recovery for Occlusion Removal

📄 arXiv: 2504.04679v1 📥 PDF

作者: Wanzhou Liu, Zhexiao Xiong, Xinyu Li, Nathan Jacobs

分类: cs.CV

发布日期: 2025-04-07

备注: Accepted by CVPR 2025 4th CV4Metaverse Workshop. 15 pages, 10 figures. Code and data at: https://github.com/wanzhouliu/declutter-nerf


💡 一句话要点

DeclutterNeRF:一种无生成先验的3D场景重建方法,用于遮挡移除

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 神经辐射场 3D场景重建 遮挡移除 视角合成 无生成先验

📋 核心要点

  1. 现有遮挡移除方法依赖生成先验,易引入伪影和模糊,限制了3D场景重建的质量和真实感。
  2. DeclutterNeRF通过联合优化相机参数、遮挡退火正则化和随机结构相似性损失,实现无生成先验的高质量重建。
  3. 实验表明,DeclutterNeRF在提出的DeclutterSet数据集上显著优于现有方法,证明了其有效性。

📝 摘要(中文)

本文提出了一种名为DeclutterNeRF的无生成先验的遮挡移除方法,用于增强神经辐射场(NeRF)和3D高斯溅射(3DGS)等新型视角合成(NVS)技术的鲁棒性和适用性。现有方法依赖生成先验,易引入伪影和模糊。为此,本文构建了DeclutterSet数据集,包含前景、中景和背景中存在显著遮挡且视角间具有较大相对运动的场景。DeclutterNeRF通过联合多视角优化可学习相机参数、遮挡退火正则化以及可解释的随机结构相似性损失,从不完整图像中实现高质量、无伪影的重建。实验表明,DeclutterNeRF在DeclutterSet上显著优于现有方法,为未来研究奠定了基础。

🔬 方法详解

问题定义:现有基于NeRF和3DGS的3D场景重建方法在存在遮挡的情况下性能会显著下降。现有的遮挡移除方法主要依赖于生成先验,虽然可以填充遮挡区域,但容易引入新的伪影和模糊,影响重建质量。此外,现有的遮挡移除评估数据集缺乏真实场景的复杂性和视角变化。

核心思路:DeclutterNeRF的核心思路是通过联合优化相机参数、遮挡退火正则化和可解释的随机结构相似性损失,在不依赖生成先验的情况下,从不完整的图像中恢复高质量的3D场景。这种方法旨在避免生成先验引入的伪影和模糊,同时提高重建的鲁棒性。

技术框架:DeclutterNeRF的整体框架包括以下几个主要步骤:1) 初始化NeRF或3DGS模型;2) 联合多视角优化可学习的相机参数,以校正相机姿态估计误差;3) 应用遮挡退火正则化,逐步减少遮挡区域的影响;4) 使用可解释的随机结构相似性损失,鼓励重建结果与输入图像在结构上保持一致;5) 迭代优化模型参数,直至收敛。

关键创新:DeclutterNeRF的关键创新在于其无生成先验的遮挡移除方法。与现有方法不同,DeclutterNeRF不依赖于预训练的生成模型来填充遮挡区域,而是通过优化相机参数和使用特定的正则化项和损失函数,直接从观测数据中恢复3D场景。这种方法避免了生成先验引入的伪影和模糊,提高了重建质量。

关键设计:DeclutterNeRF的关键设计包括:1) 可学习的相机参数,用于校正相机姿态估计误差;2) 遮挡退火正则化,逐步减少遮挡区域的影响,避免模型过度拟合遮挡区域;3) 可解释的随机结构相似性损失,鼓励重建结果与输入图像在结构上保持一致,提高重建的真实感。具体而言,遮挡退火正则化通过一个随迭代次数变化的权重来控制遮挡区域的损失权重,初始时遮挡区域的损失权重较低,随着迭代次数的增加,权重逐渐增加。随机结构相似性损失通过随机采样图像块来计算结构相似性,避免了全局结构相似性损失对所有像素的平均,从而更好地捕捉局部结构信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DeclutterNeRF在提出的DeclutterSet数据集上进行了广泛的实验,结果表明其显著优于现有的遮挡移除方法。具体而言,DeclutterNeRF在PSNR、SSIM和LPIPS等指标上均取得了显著提升,证明了其在遮挡移除和场景重建方面的有效性。例如,在某些场景下,DeclutterNeRF的PSNR比现有方法提高了超过2dB。

🎯 应用场景

DeclutterNeRF可应用于自动驾驶、机器人导航、虚拟现实和增强现实等领域。在自动驾驶中,可以移除车辆或其他障碍物的遮挡,提高环境感知能力。在机器人导航中,可以帮助机器人更好地理解周围环境,规划安全路径。在虚拟现实和增强现实中,可以创建更逼真的3D场景,提升用户体验。该研究的未来影响在于推动3D场景重建技术的发展,使其在更复杂的场景中具有更强的鲁棒性和适用性。

📄 摘要(原文)

Recent novel view synthesis (NVS) techniques, including Neural Radiance Fields (NeRF) and 3D Gaussian Splatting (3DGS) have greatly advanced 3D scene reconstruction with high-quality rendering and realistic detail recovery. Effectively removing occlusions while preserving scene details can further enhance the robustness and applicability of these techniques. However, existing approaches for object and occlusion removal predominantly rely on generative priors, which, despite filling the resulting holes, introduce new artifacts and blurriness. Moreover, existing benchmark datasets for evaluating occlusion removal methods lack realistic complexity and viewpoint variations. To address these issues, we introduce DeclutterSet, a novel dataset featuring diverse scenes with pronounced occlusions distributed across foreground, midground, and background, exhibiting substantial relative motion across viewpoints. We further introduce DeclutterNeRF, an occlusion removal method free from generative priors. DeclutterNeRF introduces joint multi-view optimization of learnable camera parameters, occlusion annealing regularization, and employs an explainable stochastic structural similarity loss, ensuring high-quality, artifact-free reconstructions from incomplete images. Experiments demonstrate that DeclutterNeRF significantly outperforms state-of-the-art methods on our proposed DeclutterSet, establishing a strong baseline for future research.