DualSplat: Robust 3D Gaussian Splatting via Pseudo-Mask Bootstrapping from Reconstruction Failures
作者: Xu Wang, Zhiru Wang, Shiyun Xie, Chengwei Pan, Yisong Chen
分类: cs.CV
发布日期: 2026-04-23
备注: 10 pages,6 figures, accepted to Computer Vision and Pattern Recognition Conference 2026
💡 一句话要点
DualSplat:利用重建失败的伪掩码引导,实现鲁棒的3D高斯溅射
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 3D高斯溅射 瞬态物体 神经渲染 伪掩码 场景重建
📋 核心要点
- 现有3DGS方法在处理包含瞬态物体的场景时,由于多视角一致性问题,重建质量显著下降。
- DualSplat框架通过将首次重建的失败转化为伪掩码先验,引导第二次更干净的3DGS优化,解决循环依赖问题。
- 实验结果表明,DualSplat在包含大量瞬态物体的场景中,显著优于现有方法,尤其是在瞬态区域。
📝 摘要(中文)
3D高斯溅射(3DGS)虽然能实现实时的照片级真实感渲染,但当训练图像包含违反多视角一致性的瞬态物体时,其性能会显著下降。现有方法面临一个循环依赖问题:准确的瞬态检测需要良好重建的静态场景,而干净的重建本身又依赖于可靠的瞬态掩码。我们提出了DualSplat,一个“从失败到先验”的框架,将第一遍重建的失败转化为第二遍重建阶段的显式先验。我们观察到,仅出现在部分视角中的瞬态物体,通常在保守的初始训练中表现为不完整的片段。我们利用这些失败,通过结合光度残差、特征不匹配和SAM2实例边界来构建对象级别的伪掩码。这些伪掩码随后引导干净的第二遍3DGS优化,同时一个轻量级的MLP通过逐渐从先验监督转向自洽性来在线细化它们。在RobustNeRF和NeRF On-the-go上的实验表明,DualSplat优于现有的基线方法,在瞬态物体较多的场景和瞬态区域中表现出特别明显的优势。
🔬 方法详解
问题定义:论文旨在解决3D高斯溅射(3DGS)在存在瞬态物体(如移动的行人、车辆等)时重建质量下降的问题。现有方法通常需要精确的瞬态物体掩码,但获取这些掩码本身又依赖于一个较好的初始重建,形成了一个鸡生蛋蛋生鸡的循环依赖问题。
核心思路:DualSplat的核心思想是利用首次重建的失败信息来生成伪掩码,作为第二次重建的先验知识。具体来说,瞬态物体由于视角不一致,在首次重建中往往表现为不完整的碎片,这些碎片可以作为指示瞬态物体位置的线索。通过将重建失败转化为先验信息,打破了对精确初始掩码的依赖。
技术框架:DualSplat包含两个主要的重建阶段。第一阶段进行保守的初始3DGS训练,旨在尽可能重建静态场景,但允许瞬态物体出现重建失败。然后,利用第一阶段的重建结果,结合光度残差、特征不匹配和SAM2分割结果,生成瞬态物体的伪掩码。第二阶段,使用这些伪掩码作为先验,引导第二次3DGS优化,同时使用一个轻量级的MLP网络在线细化这些伪掩码,逐渐从先验监督过渡到自洽性约束。
关键创新:DualSplat的关键创新在于“从失败到先验”的框架,它巧妙地利用了首次重建的失败信息,而不是试图避免这些失败。这种方法避免了对精确初始掩码的依赖,从而能够处理包含大量瞬态物体的复杂场景。此外,在线细化伪掩码的MLP网络也能够逐步提高掩码的准确性。
关键设计:伪掩码的生成结合了多种信息源,包括光度残差(衡量重建与观测的差异)、特征不匹配(衡量不同视角特征的一致性)和SAM2分割结果(提供实例级别的分割信息)。这些信息被融合在一起,生成更鲁棒的伪掩码。此外,在线细化伪掩码的MLP网络被设计为轻量级的,以保证整体的训练效率。损失函数的设计也至关重要,它需要平衡先验监督和自洽性约束,以保证伪掩码的准确性和一致性。
🖼️ 关键图片
📊 实验亮点
DualSplat在RobustNeRF和NeRF On-the-go数据集上进行了评估,实验结果表明,DualSplat在包含大量瞬态物体的场景中,显著优于现有的基线方法。尤其是在瞬态区域,DualSplat能够更准确地重建场景,减少瞬态物体带来的干扰。定量结果显示,DualSplat在PSNR、SSIM等指标上均有显著提升。
🎯 应用场景
DualSplat在自动驾驶、机器人导航、增强现实等领域具有广泛的应用前景。例如,在自动驾驶中,可以利用DualSplat重建包含移动车辆和行人的动态场景,提高环境感知的准确性和鲁棒性。在机器人导航中,可以帮助机器人更好地理解和适应动态变化的环境。在增强现实中,可以实现更逼真的虚拟物体与真实场景的融合。
📄 摘要(原文)
While 3D Gaussian Splatting (3DGS) achieves real-time photorealistic rendering, its performance degrades significantly when training images contain transient objects that violate multi-view consistency. Existing methods face a circular dependency: accurate transient detection requires a well-reconstructed static scene, while clean reconstruction itself depends on reliable transient masks. We address this challenge with DualSplat, a Failure-to-Prior framework that converts first-pass reconstruction failures into explicit priors for a second reconstruction stage. We observe that transients, which appear in only a subset of views, often manifest as incomplete fragments during conservative initial training. We exploit these failures to construct object-level pseudo-masks by combining photometric residuals, feature mismatches, and SAM2 instance boundaries. These pseudo-masks then guide a clean second-pass 3DGS optimization, while a lightweight MLP refines them online by gradually shifting from prior supervision to self-consistency. Experiments on RobustNeRF and NeRF On-the-go show that DualSplat outperforms existing baselines, demonstrating particularly clear advantages in transient-heavy scenes and transient regions.