Robust 3D Gaussian Splatting for Novel View Synthesis in Presence of Distractors

📄 arXiv: 2408.11697v1 📥 PDF

作者: Paul Ungermann, Armin Ettenhofer, Matthias Nießner, Barbara Roessle

分类: cs.CV

发布日期: 2024-08-21

备注: GCPR 2024, Project Page: https://paulungermann.github.io/Robust3DGaussians , Video: https://www.youtube.com/watch?v=P9unyR7yK3E


💡 一句话要点

提出鲁棒的3D高斯溅射方法,解决存在干扰物的新视角合成问题

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 3D高斯溅射 新视角合成 干扰物去除 自监督学习 图像残差 场景重建 鲁棒性

📋 核心要点

  1. 3D高斯溅射易受动态干扰物影响,导致新视角合成质量下降,产生伪影。
  2. 提出一种自监督方法,利用图像残差和预训练分割网络识别并排除干扰物。
  3. 实验表明,该方法能有效提高受干扰场景的渲染质量,PSNR提升显著。

📝 摘要(中文)

3D高斯溅射在新视角合成方面表现出色,但易受动态物体(干扰物)的影响,导致渲染质量下降,产生视角相关的伪影或漂浮物。本文旨在识别并忽略这些干扰物,以获得干净的重建结果。该方法采用自监督方式,通过优化过程中的图像残差来确定可能被干扰物污染的区域。此外,利用预训练的分割网络提供物体感知能力,更准确地排除干扰物。通过这种方式,可以获得干扰物的分割掩码,从而在损失函数中有效地忽略它们。实验表明,该方法对各种干扰物具有鲁棒性,并显著提高了受干扰物污染场景的渲染质量,PSNR指标相比3D高斯溅射提高了1.86dB。

🔬 方法详解

问题定义:论文旨在解决3D高斯溅射在新视角合成中,由于场景中存在动态干扰物而导致的渲染质量下降问题。现有方法无法有效区分静态场景和动态物体,导致干扰物被错误地建模,产生伪影和视角依赖性问题。

核心思路:核心思路是通过自监督学习的方式,利用图像渲染过程中的残差信息来判断哪些区域可能受到了干扰物的影响。同时,结合预训练的分割网络,提供更强的物体感知能力,从而更准确地识别和排除干扰物。

技术框架:该方法主要包含以下几个阶段:1) 使用3D高斯溅射进行初始场景重建;2) 利用预训练的分割网络对输入图像进行分割,获得潜在干扰物的掩码;3) 在优化过程中,计算渲染图像与真实图像之间的残差,并结合分割掩码,判断哪些高斯分布可能受到了干扰物的影响;4) 在损失函数中,降低或忽略这些高斯分布的贡献,从而避免干扰物对重建结果的影响。

关键创新:该方法的核心创新在于将自监督学习和预训练分割网络相结合,用于识别和排除3D高斯溅射中的干扰物。与传统方法相比,该方法不需要额外的标注信息,并且能够更准确地识别动态物体。

关键设计:关键设计包括:1) 使用图像残差作为自监督信号,判断高斯分布是否受到干扰;2) 利用预训练的分割网络提供物体感知能力,辅助干扰物的识别;3) 设计损失函数,降低或忽略受干扰高斯分布的贡献。具体的损失函数设计可能包括对残差较大的区域进行惩罚,或者对被分割网络标记为干扰物的区域进行权重调整。具体的参数设置(如残差阈值、分割网络的置信度阈值等)需要根据实际场景进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在存在干扰物的场景中,显著提高了新视角合成的渲染质量。与原始的3D高斯溅射相比,PSNR指标提高了1.86dB。该方法对各种类型的干扰物都具有鲁棒性,并且不需要额外的标注信息。

🎯 应用场景

该研究成果可应用于自动驾驶、机器人导航、增强现实等领域。在这些场景中,动态物体(如行人、车辆)可能会干扰静态场景的重建,导致定位、导航等任务的性能下降。该方法可以有效排除这些干扰,提高场景重建的鲁棒性和准确性,从而提升相关应用的性能。

📄 摘要(原文)

3D Gaussian Splatting has shown impressive novel view synthesis results; nonetheless, it is vulnerable to dynamic objects polluting the input data of an otherwise static scene, so called distractors. Distractors have severe impact on the rendering quality as they get represented as view-dependent effects or result in floating artifacts. Our goal is to identify and ignore such distractors during the 3D Gaussian optimization to obtain a clean reconstruction. To this end, we take a self-supervised approach that looks at the image residuals during the optimization to determine areas that have likely been falsified by a distractor. In addition, we leverage a pretrained segmentation network to provide object awareness, enabling more accurate exclusion of distractors. This way, we obtain segmentation masks of distractors to effectively ignore them in the loss formulation. We demonstrate that our approach is robust to various distractors and strongly improves rendering quality on distractor-polluted scenes, improving PSNR by 1.86dB compared to 3D Gaussian Splatting.