Distractor-free Generalizable 3D Gaussian Splatting

📄 arXiv: 2411.17605v2 📥 PDF

作者: Yanqi Bao, Jing Liao, Jing Huo, Yang Gao

分类: cs.CV

发布日期: 2024-11-26 (更新: 2025-06-02)

🔗 代码/项目: GITHUB


💡 一句话要点

提出DGGS,解决跨场景泛化3D高斯溅射中无干扰物体的重建问题

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 3D高斯溅射 可泛化重建 干扰物去除 场景理解 参考图像 掩码预测 神经渲染 跨场景学习

📋 核心要点

  1. 现有跨场景泛化3D高斯溅射方法易受干扰物影响,导致3D不一致和训练不稳定。
  2. DGGS提出场景无关的参考掩码预测与细化模块,训练时消除干扰,推理时进行参考评分与剪枝。
  3. 实验表明,DGGS在处理新干扰场景时具有良好的重建能力,掩码预测精度优于特定场景训练方法。

📝 摘要(中文)

本文提出了一种新的框架DGGS,旨在解决先前未被探索的挑战:无干扰物的可泛化3D高斯溅射(3DGS)。它减轻了跨场景可泛化训练设置中由干扰数据引起的3D不一致性和训练不稳定性,同时实现了对3DGS的前馈推理以及来自未见场景中参考的干扰物掩码预测。为了实现这些目标,DGGS在训练阶段提出了一种与场景无关的基于参考的掩码预测和细化模块,有效地消除了干扰物对训练稳定性的影响。此外,我们通过一种新颖的两阶段推理框架(用于参考评分和重新选择)来对抗由干扰物引起的伪影和空洞,并辅以干扰物剪枝机制,进一步消除了残余干扰物3DGS基元的影响。在真实数据和我们的合成数据上进行的大量前馈实验表明,DGGS在处理新的干扰物场景时的重建能力。此外,我们的可泛化掩码预测甚至实现了优于现有特定场景训练方法的准确性。

🔬 方法详解

问题定义:现有的可泛化3D高斯溅射方法在跨场景训练时,容易受到场景中干扰物的影响,导致训练过程不稳定,重建结果出现3D不一致性,并且难以直接应用于包含干扰物的新场景。这些干扰物会引入噪声,影响模型的泛化能力,使得模型难以准确地学习到目标物体的几何结构和外观信息。

核心思路:DGGS的核心思路是在训练阶段通过参考图像预测和细化干扰物掩码,从而消除干扰物对训练过程的影响。在推理阶段,通过两阶段的参考评分和重新选择,以及干扰物剪枝机制,进一步去除残余干扰物的影响,从而提高重建质量和泛化能力。这种方法的核心在于利用参考图像的信息来区分目标物体和干扰物,从而实现更鲁棒的3D重建。

技术框架:DGGS包含训练和推理两个阶段。在训练阶段,DGGS使用一个场景无关的参考图像掩码预测和细化模块,该模块以参考图像作为输入,预测并细化干扰物的掩码,从而在训练过程中消除干扰物的影响。在推理阶段,DGGS首先进行参考评分和重新选择,选择最合适的参考图像。然后,利用选定的参考图像,通过干扰物剪枝机制去除残余干扰物的影响,最终得到高质量的3D高斯溅射模型。

关键创新:DGGS的关键创新在于提出了一个场景无关的参考图像掩码预测和细化模块,以及一个两阶段的推理框架,包括参考评分和重新选择,以及干扰物剪枝机制。这些创新使得DGGS能够有效地处理包含干扰物的场景,并实现更好的泛化能力。与现有方法相比,DGGS不需要针对特定场景进行训练,可以直接应用于新的包含干扰物的场景,并且能够获得更高的重建质量。

关键设计:在训练阶段,DGGS使用交叉熵损失函数来训练掩码预测模块,并使用L1损失函数来细化掩码。在推理阶段,DGGS使用余弦相似度来计算参考图像的评分,并选择评分最高的参考图像。干扰物剪枝机制通过设置一个阈值来去除密度较低的高斯基元,从而去除残余干扰物的影响。具体的网络结构和参数设置在论文中有详细描述,例如掩码预测模块的网络结构,损失函数的权重等。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DGGS在合成和真实数据集上进行了广泛的实验,结果表明DGGS在处理包含干扰物的场景时,能够显著提高重建质量和泛化能力。特别是在掩码预测方面,DGGS的准确率甚至优于现有的特定场景训练方法。实验结果还表明,DGGS的干扰物剪枝机制能够有效地去除残余干扰物的影响,从而进一步提高重建质量。

🎯 应用场景

DGGS在机器人导航、自动驾驶、增强现实等领域具有广泛的应用前景。例如,在机器人导航中,DGGS可以用于重建包含动态障碍物的环境地图,从而帮助机器人更好地进行路径规划。在自动驾驶中,DGGS可以用于识别和分割道路上的车辆、行人等目标,从而提高自动驾驶系统的安全性。在增强现实中,DGGS可以用于将虚拟物体与真实场景进行融合,从而提供更逼真的增强现实体验。

📄 摘要(原文)

We present DGGS, a novel framework that addresses the previously unexplored challenge: $\textbf{Distractor-free Generalizable 3D Gaussian Splatting}$ (3DGS). It mitigates 3D inconsistency and training instability caused by distractor data in the cross-scenes generalizable train setting while enabling feedforward inference for 3DGS and distractor masks from references in the unseen scenes. To achieve these objectives, DGGS proposes a scene-agnostic reference-based mask prediction and refinement module during the training phase, effectively eliminating the impact of distractor on training stability. Moreover, we combat distractor-induced artifacts and holes at inference time through a novel two-stage inference framework for references scoring and re-selection, complemented by a distractor pruning mechanism that further removes residual distractor 3DGS-primitive influences. Extensive feedforward experiments on the real and our synthetic data show DGGS's reconstruction capability when dealing with novel distractor scenes. Moreover, our generalizable mask prediction even achieves an accuracy superior to existing scene-specific training methods. Homepage is https://github.com/bbbbby-99/DGGS.