Distractor-free Generalizable 3D Gaussian Splatting
作者: Yanqi Bao, Jing Liao, Jing Huo, Yang Gao
分类: cs.CV
发布日期: 2026-02-28
💡 一句话要点
提出DGGS,解决通用3D高斯溅射中无干扰物体的场景重建问题
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 3D高斯溅射 三维重建 通用性 干扰物去除 掩模预测
📋 核心要点
- 现有通用3D高斯溅射方法易受训练数据中干扰物影响,导致3D不一致和训练不稳定。
- DGGS提出场景无关的参考掩模预测与细化模块,训练时消除干扰,推理时进行参考评分与重选。
- 实验表明,DGGS在处理新干扰物场景时具有良好的重建能力,掩模预测精度优于特定场景训练方法。
📝 摘要(中文)
本文提出了一种新的框架DGGS,旨在解决先前未被探索的挑战:无干扰物的通用3D高斯溅射(3DGS)。它减轻了跨场景通用训练设置中由干扰数据引起的3D不一致性和训练不稳定性,同时实现了对3DGS的前馈推理以及来自未见场景中参考的干扰物掩模预测。为了实现这些目标,DGGS在训练阶段提出了一种与场景无关的基于参考的掩模预测和细化模块,有效地消除了干扰物对训练稳定性的影响。此外,我们通过一种新颖的两阶段推理框架(用于参考评分和重新选择)来对抗推理时由干扰物引起的伪影和空洞,并辅以一种干扰物剪枝机制,进一步消除残余干扰物3DGS基元的影响。在真实数据和我们合成数据上的大量前馈实验表明,DGGS在处理新的干扰物场景时具有重建能力。此外,我们的通用掩模预测甚至实现了优于现有特定场景训练方法的准确性。
🔬 方法详解
问题定义:论文旨在解决通用3D高斯溅射(3DGS)中,由于训练数据包含干扰物而导致的3D不一致性和训练不稳定性问题。现有的通用3DGS方法在训练时,容易受到场景中无关物体的干扰,导致模型学习到错误的几何和外观信息,从而影响最终的重建质量。此外,干扰物还会导致训练过程不稳定,难以收敛到一个好的局部最优解。
核心思路:DGGS的核心思路是在训练阶段,通过一个场景无关的参考图像,预测并细化干扰物的掩模,从而在训练过程中消除干扰物的影响。在推理阶段,DGGS采用两阶段的推理框架,首先对参考图像进行评分和重选,然后通过干扰物剪枝机制,进一步消除残余干扰物的影响。这样设计的目的是使模型能够专注于学习目标物体的特征,从而提高重建质量和训练稳定性。
技术框架:DGGS的整体框架包含两个主要阶段:训练阶段和推理阶段。在训练阶段,DGGS使用场景无关的参考图像,通过一个掩模预测和细化模块,预测并细化干扰物的掩模。该模块的输入是参考图像和当前场景的图像,输出是干扰物的掩模。在推理阶段,DGGS首先对参考图像进行评分和重选,选择最合适的参考图像。然后,DGGS使用选定的参考图像,通过干扰物剪枝机制,进一步消除残余干扰物的影响。
关键创新:DGGS的关键创新在于提出了一个场景无关的参考图像掩模预测和细化模块,以及一个两阶段的推理框架。场景无关的掩模预测模块使得模型能够学习到通用的干扰物特征,从而在不同的场景中都能有效地预测干扰物的掩模。两阶段的推理框架能够有效地消除推理时残余干扰物的影响,从而提高重建质量。
关键设计:DGGS的关键设计包括:1) 场景无关的掩模预测模块,该模块使用一个卷积神经网络来预测干扰物的掩模。2) 掩模细化模块,该模块使用一个残差网络来细化预测的掩模。3) 参考图像评分和重选机制,该机制使用一个评分函数来评估参考图像的质量,并选择最合适的参考图像。4) 干扰物剪枝机制,该机制通过移除与干扰物相关的3DGS基元来消除残余干扰物的影响。具体的损失函数和网络结构等细节在论文中有详细描述。
🖼️ 关键图片
📊 实验亮点
DGGS在真实和合成数据集上进行了广泛的实验,结果表明DGGS在处理包含干扰物的场景时,能够显著提高重建质量。DGGS的通用掩模预测精度甚至优于现有的特定场景训练方法。实验结果验证了DGGS的有效性和优越性。
🎯 应用场景
DGGS在三维重建、虚拟现实、增强现实等领域具有广泛的应用前景。例如,可以用于自动驾驶场景中的道路重建,去除车辆、行人等干扰物,提高重建精度。在游戏开发中,可以用于快速生成高质量的三维场景,并自动去除场景中的无关物体。此外,DGGS还可以应用于文物保护、医学影像等领域。
📄 摘要(原文)
We present DGGS, a novel framework that addresses the previously unexplored challenge: $\textbf{Distractor-free Generalizable 3D Gaussian Splatting}$ (3DGS). It mitigates 3D inconsistency and training instability caused by distractor data in the cross-scenes generalizable train setting while enabling feedforward inference for 3DGS and distractor masks from references in the unseen scenes. To achieve these objectives, DGGS proposes a scene-agnostic reference-based mask prediction and refinement module during the training phase, effectively eliminating the impact of distractor on training stability. Moreover, we combat distractor-induced artifacts and holes at inference time through a novel two-stage inference framework for references scoring and re-selection, complemented by a distractor pruning mechanism that further removes residual distractor 3DGS-primitive influences. Extensive feedforward experiments on the real and our synthetic data show DGGS's reconstruction capability when dealing with novel distractor scenes. Moreover, our generalizable mask prediction even achieves an accuracy superior to existing scene-specific training methods. Homepage isthis https URL.