DualSplat: Robust 3D Gaussian Splatting via Pseudo-Mask Bootstrapping from Reconstruction Failures

作者: Xu Wang, Zhiru Wang, Shiyun Xie, Chengwei Pan, Yisong Chen

分类: cs.CV

发布日期: 2026-04-23

备注: 10 pages,6 figures, accepted to Computer Vision and Pattern Recognition Conference 2026

💡 一句话要点

DualSplat：利用重建失败的伪掩码引导，实现鲁棒的3D高斯溅射

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 3D高斯溅射 瞬态物体 神经渲染 伪掩码 场景重建

📋 核心要点

现有3DGS方法在处理包含瞬态物体的场景时，由于多视角一致性问题，重建质量显著下降。
DualSplat框架通过将首次重建的失败转化为伪掩码先验，引导第二次更干净的3DGS优化，解决循环依赖问题。
实验结果表明，DualSplat在包含大量瞬态物体的场景中，显著优于现有方法，尤其是在瞬态区域。

📝 摘要（中文）

3D高斯溅射(3DGS)虽然能实现实时的照片级真实感渲染，但当训练图像包含违反多视角一致性的瞬态物体时，其性能会显著下降。现有方法面临一个循环依赖问题：准确的瞬态检测需要良好重建的静态场景，而干净的重建本身又依赖于可靠的瞬态掩码。我们提出了DualSplat，一个“从失败到先验”的框架，将第一遍重建的失败转化为第二遍重建阶段的显式先验。我们观察到，仅出现在部分视角中的瞬态物体，通常在保守的初始训练中表现为不完整的片段。我们利用这些失败，通过结合光度残差、特征不匹配和SAM2实例边界来构建对象级别的伪掩码。这些伪掩码随后引导干净的第二遍3DGS优化，同时一个轻量级的MLP通过逐渐从先验监督转向自洽性来在线细化它们。在RobustNeRF和NeRF On-the-go上的实验表明，DualSplat优于现有的基线方法，在瞬态物体较多的场景和瞬态区域中表现出特别明显的优势。

🔬 方法详解

问题定义：论文旨在解决3D高斯溅射（3DGS）在存在瞬态物体（如移动的行人、车辆等）时重建质量下降的问题。现有方法通常需要精确的瞬态物体掩码，但获取这些掩码本身又依赖于一个较好的初始重建，形成了一个鸡生蛋蛋生鸡的循环依赖问题。

核心思路：DualSplat的核心思想是利用首次重建的失败信息来生成伪掩码，作为第二次重建的先验知识。具体来说，瞬态物体由于视角不一致，在首次重建中往往表现为不完整的碎片，这些碎片可以作为指示瞬态物体位置的线索。通过将重建失败转化为先验信息，打破了对精确初始掩码的依赖。

技术框架：DualSplat包含两个主要的重建阶段。第一阶段进行保守的初始3DGS训练，旨在尽可能重建静态场景，但允许瞬态物体出现重建失败。然后，利用第一阶段的重建结果，结合光度残差、特征不匹配和SAM2分割结果，生成瞬态物体的伪掩码。第二阶段，使用这些伪掩码作为先验，引导第二次3DGS优化，同时使用一个轻量级的MLP网络在线细化这些伪掩码，逐渐从先验监督过渡到自洽性约束。

关键创新：DualSplat的关键创新在于“从失败到先验”的框架，它巧妙地利用了首次重建的失败信息，而不是试图避免这些失败。这种方法避免了对精确初始掩码的依赖，从而能够处理包含大量瞬态物体的复杂场景。此外，在线细化伪掩码的MLP网络也能够逐步提高掩码的准确性。

关键设计：伪掩码的生成结合了多种信息源，包括光度残差（衡量重建与观测的差异）、特征不匹配（衡量不同视角特征的一致性）和SAM2分割结果（提供实例级别的分割信息）。这些信息被融合在一起，生成更鲁棒的伪掩码。此外，在线细化伪掩码的MLP网络被设计为轻量级的，以保证整体的训练效率。损失函数的设计也至关重要，它需要平衡先验监督和自洽性约束，以保证伪掩码的准确性和一致性。

🖼️ 关键图片

📊 实验亮点

DualSplat在RobustNeRF和NeRF On-the-go数据集上进行了评估，实验结果表明，DualSplat在包含大量瞬态物体的场景中，显著优于现有的基线方法。尤其是在瞬态区域，DualSplat能够更准确地重建场景，减少瞬态物体带来的干扰。定量结果显示，DualSplat在PSNR、SSIM等指标上均有显著提升。

🎯 应用场景

DualSplat在自动驾驶、机器人导航、增强现实等领域具有广泛的应用前景。例如，在自动驾驶中，可以利用DualSplat重建包含移动车辆和行人的动态场景，提高环境感知的准确性和鲁棒性。在机器人导航中，可以帮助机器人更好地理解和适应动态变化的环境。在增强现实中，可以实现更逼真的虚拟物体与真实场景的融合。

📄 摘要（原文）

While 3D Gaussian Splatting (3DGS) achieves real-time photorealistic rendering, its performance degrades significantly when training images contain transient objects that violate multi-view consistency. Existing methods face a circular dependency: accurate transient detection requires a well-reconstructed static scene, while clean reconstruction itself depends on reliable transient masks. We address this challenge with DualSplat, a Failure-to-Prior framework that converts first-pass reconstruction failures into explicit priors for a second reconstruction stage. We observe that transients, which appear in only a subset of views, often manifest as incomplete fragments during conservative initial training. We exploit these failures to construct object-level pseudo-masks by combining photometric residuals, feature mismatches, and SAM2 instance boundaries. These pseudo-masks then guide a clean second-pass 3DGS optimization, while a lightweight MLP refines them online by gradually shifting from prior supervision to self-consistency. Experiments on RobustNeRF and NeRF On-the-go show that DualSplat outperforms existing baselines, demonstrating particularly clear advantages in transient-heavy scenes and transient regions.

DualSplat: Robust 3D Gaussian Splatting via Pseudo-Mask Bootstrapping from Reconstruction Failures

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理