ROODI: Reconstructing Occluded Objects with Denoising Inpainters

📄 arXiv: 2503.10256v2 📥 PDF

作者: Yeonjin Chang, Erqun Dong, Seunghyeon Seo, Nojun Kwak, Kwang Moo Yi

分类: cs.CV

发布日期: 2025-03-13 (更新: 2025-08-09)

备注: Project page: https://yeonjin-chang.github.io/ROODI/


💡 一句话要点

ROODI:利用去噪修复器重建3D高斯 Splatting中被遮挡物体

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 3D高斯 Splatting 物体提取 遮挡处理 生成式修复 Wasserstein距离

📋 核心要点

  1. 现有方法难以从3D高斯 Splatting 场景中有效提取特定物体,尤其是在存在遮挡的情况下。
  2. ROODI通过移除不相关高斯基元进行物体中心重建,并结合生成式修复来补偿遮挡造成的缺失信息。
  3. 实验表明,ROODI在真实和合成数据集上均优于现有方法,证明了剪枝和修复协同作用的有效性。

📝 摘要(中文)

尽管基于3D高斯 Splatting 的新视角图像质量已显著提高,但从场景中提取特定物体仍然具有挑战性。为每个物体隔离单独的3D高斯基元以及处理场景中的遮挡问题远未解决。我们提出了一种新的物体提取方法,该方法基于两个关键原则:(1)通过移除不相关的基元实现以物体为中心的重建;(2)利用生成式修复来补偿由遮挡导致的缺失观测。对于剪枝,我们建议通过考察高斯基元与其K近邻的距离,并移除那些统计异常值来实现。重要的是,这些距离必须考虑它们覆盖的实际空间范围——因此我们建议使用Wasserstein距离。对于修复,我们采用现成的基于扩散的修复器,并结合遮挡推理,利用整个场景的3D表示。我们的研究结果强调了适当的剪枝和修复之间的关键协同作用,这两者都显著提高了提取性能。我们在一个标准的真实世界数据集上评估了我们的方法,并引入了一个合成数据集用于定量分析。我们的方法优于最先进的方法,证明了其在从复杂场景中提取物体方面的有效性。

🔬 方法详解

问题定义:论文旨在解决从3D高斯 Splatting 场景中提取特定物体的问题,尤其是在存在遮挡的情况下。现有方法难以有效地隔离每个物体的3D高斯基元,并且无法很好地处理遮挡带来的信息缺失,导致物体提取效果不佳。

核心思路:论文的核心思路是结合物体中心重建和生成式修复。首先,通过移除不相关的高斯基元,聚焦于目标物体。然后,利用生成式修复技术,填充由于遮挡而缺失的物体部分,从而实现更完整的物体重建。这种结合利用了3D高斯 Splatting 的场景表示能力和生成模型的图像补全能力。

技术框架:ROODI 的整体框架包含两个主要阶段:高斯基元剪枝和遮挡区域修复。首先,对场景中的高斯基元进行剪枝,移除与目标物体无关的基元。然后,利用场景的3D表示和遮挡信息,使用基于扩散模型的修复器对遮挡区域进行补全。这两个阶段协同工作,共同完成物体提取任务。

关键创新:论文的关键创新在于结合了基于 Wasserstein 距离的高斯基元剪枝和基于扩散模型的遮挡区域修复。Wasserstein 距离用于更准确地衡量高斯基元之间的距离,从而实现更有效的剪枝。同时,利用场景的3D信息进行遮挡推理,指导修复过程,提高了修复的准确性和一致性。

关键设计:在剪枝阶段,使用 K 近邻算法和统计异常值检测来移除不相关的高斯基元。Wasserstein 距离的计算考虑了高斯基元的空间范围。在修复阶段,使用现成的基于扩散模型的图像修复器,并结合场景的深度信息和遮挡掩码作为输入。损失函数主要关注修复区域的图像质量和与周围区域的一致性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

ROODI 在真实世界和合成数据集上都取得了优于现有方法的性能。定量结果表明,ROODI 在物体提取的准确性和完整性方面都有显著提升。特别是在存在严重遮挡的情况下,ROODI 的优势更加明显。论文还通过消融实验验证了剪枝和修复两个模块的协同作用。

🎯 应用场景

ROODI 可应用于自动驾驶、机器人导航、增强现实等领域。例如,在自动驾驶中,可以利用 ROODI 从复杂的城市场景中提取车辆、行人等关键物体,提高环境感知能力。在机器人导航中,可以用于识别和重建被遮挡的物体,帮助机器人更好地理解周围环境。在增强现实中,可以用于将虚拟物体无缝地融入真实场景,并处理遮挡关系。

📄 摘要(原文)

While the quality of novel-view images has improved dramatically with 3D Gaussian Splatting, extracting specific objects from scenes remains challenging. Isolating individual 3D Gaussian primitives for each object and handling occlusions in scenes remains far from being solved. We propose a novel object extraction method based on two key principles: (1) object-centric reconstruction through removal of irrelevant primitives; and (2) leveraging generative inpainting to compensate for missing observations caused by occlusions. For pruning, we propose to remove irrelevant Gaussians by looking into how close they are to its K-nearest neighbors and removing those that are statistical outliers. Importantly, these distances must take into account the actual spatial extent they cover -- we thus propose to use Wasserstein distances. For inpainting, we employ an off-the-shelf diffusion-based inpainter combined with occlusion reasoning, utilizing the 3D representation of the entire scene. Our findings highlight the crucial synergy between proper pruning and inpainting, both of which significantly enhance extraction performance. We evaluate our method on a standard real-world dataset and introduce a synthetic dataset for quantitative analysis. Our approach outperforms the state-of-the-art, demonstrating its effectiveness in object extraction from complex scenes.