DeSplat: Decomposed Gaussian Splatting for Distractor-Free Rendering

📄 arXiv: 2411.19756v2 📥 PDF

作者: Yihao Wang, Marcus Klasson, Matias Turkulainen, Shuzhe Wang, Juho Kannala, Arno Solin

分类: cs.CV, cs.LG

发布日期: 2024-11-29 (更新: 2025-03-26)

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

DeSplat:提出基于分解高斯溅射的无干扰物渲染方法

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 高斯溅射 新视角合成 干扰物去除 体渲染 三维重建

📋 核心要点

  1. 真实场景重建易受干扰物影响,破坏多视角一致性,现有方法依赖外部语义信息,增加计算负担。
  2. DeSplat通过分解高斯溅射,直接分离干扰物和静态场景元素,无需外部语义信息。
  3. 实验表明,DeSplat在无干扰物新视角合成任务上,性能与现有方法相当,且不牺牲渲染速度。

📝 摘要(中文)

高斯溅射技术能够快速合成静态3D环境下的新视角图像。然而,重建真实世界环境仍然具有挑战性,因为干扰物或遮挡物会破坏精确3D重建所需的多视角一致性假设。现有方法大多依赖于预训练模型的外部语义信息,这增加了额外的计算开销,无论是在预处理阶段还是在优化过程中。本文提出了一种名为DeSplat的新方法,该方法直接分离干扰物和静态场景元素,完全基于高斯基元的体渲染。我们在每个相机视图中初始化高斯分布,用于重建特定于视图的干扰物,从而在alpha合成阶段分别建模静态3D场景和干扰物。DeSplat实现了静态元素和干扰物的显式场景分离,在不牺牲渲染速度的情况下,实现了与先前无干扰物方法相当的结果。我们在三个用于无干扰物新视角合成的基准数据集上证明了DeSplat的有效性。

🔬 方法详解

问题定义:现有基于高斯溅射的新视角合成方法在处理真实场景时,容易受到场景中存在的干扰物(如移动的行人、车辆等)的影响。这些干扰物破坏了多视角一致性假设,导致重建的3D模型不准确,渲染质量下降。现有方法通常依赖于预训练的语义分割模型来识别和去除干扰物,但这引入了额外的计算开销,增加了系统的复杂性。

核心思路:DeSplat的核心思路是在每个相机视图中显式地建模干扰物。通过在每个视图中初始化一组高斯基元来表示该视图特有的干扰物,并在后续的优化过程中,将这些高斯基元与表示静态场景的高斯基元进行分离。这样,就可以在渲染过程中将干扰物的影响去除,从而获得更准确的静态场景渲染结果。

技术框架:DeSplat的整体框架包括以下几个主要步骤:1) 初始化:在每个相机视图中初始化两组高斯基元,一组用于表示静态场景,另一组用于表示该视图特有的干扰物。2) 优化:通过优化高斯基元的参数(如位置、尺度、颜色、透明度等),使得渲染结果与输入图像尽可能一致。在优化过程中,采用了一种新的损失函数,鼓励静态场景的高斯基元保持多视角一致性,而干扰物的高斯基元则允许具有更大的视角差异。3) 渲染:在渲染新视角图像时,首先将静态场景和干扰物的高斯基元分别进行体渲染,然后将两者的渲染结果进行alpha合成,从而获得最终的渲染图像。

关键创新:DeSplat的关键创新在于它能够直接从图像中分离出干扰物和静态场景,而无需依赖外部的语义信息。这种方法不仅降低了计算开销,还避免了语义分割错误对渲染结果的影响。此外,DeSplat还提出了一种新的损失函数,能够有效地分离静态场景和干扰物的高斯基元。

关键设计:DeSplat的关键设计包括:1) 在每个视图中初始化干扰物高斯基元;2) 使用一种新的损失函数,该损失函数包含一个多视角一致性项,用于约束静态场景的高斯基元,以及一个视角差异项,用于允许干扰物的高斯基元具有更大的视角差异;3) 在渲染过程中,使用alpha合成将静态场景和干扰物的渲染结果进行融合。具体而言,alpha值由高斯基元的透明度决定,透明度越高,表示该高斯基元对最终渲染结果的贡献越小。

📊 实验亮点

DeSplat在三个基准数据集上进行了评估,实验结果表明,DeSplat在无干扰物新视角合成任务上取得了与现有方法相当的性能,同时避免了使用外部语义信息带来的计算开销。尤其是在包含大量干扰物的场景中,DeSplat的性能优势更加明显。项目网站提供了更多可视化结果。

🎯 应用场景

DeSplat技术可应用于自动驾驶、机器人导航、增强现实等领域。在这些场景中,准确地重建静态环境至关重要,而DeSplat能够有效地去除动态干扰物的影响,提高重建精度和渲染质量。未来,该技术有望进一步扩展到动态场景的建模和渲染,实现更逼真的虚拟现实体验。

📄 摘要(原文)

Gaussian splatting enables fast novel view synthesis in static 3D environments. However, reconstructing real-world environments remains challenging as distractors or occluders break the multi-view consistency assumption required for accurate 3D reconstruction. Most existing methods rely on external semantic information from pre-trained models, introducing additional computational overhead as pre-processing steps or during optimization. In this work, we propose a novel method, DeSplat, that directly separates distractors and static scene elements purely based on volume rendering of Gaussian primitives. We initialize Gaussians within each camera view for reconstructing the view-specific distractors to separately model the static 3D scene and distractors in the alpha compositing stages. DeSplat yields an explicit scene separation of static elements and distractors, achieving comparable results to prior distractor-free approaches without sacrificing rendering speed. We demonstrate DeSplat's effectiveness on three benchmark data sets for distractor-free novel view synthesis. See the project website at https://aaltoml.github.io/desplat/.