Benchmarking Single-Step Inpainting Methods for Multi-Object 3D Gaussian Splatting Scenes

📄 arXiv: 2605.30987v1 📥 PDF

作者: Finn Dröge, Cecilia Curreli, Abhishek Saroha, Daniel Cremers

分类: cs.CV

发布日期: 2026-05-29

备注: Accepted as an extended abstract to the CVEU Workshop at CVPR 2026


💡 一句话要点

针对多物体3D高斯溅射场景,评估单步修复方法的性能并提出基线。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 3D高斯溅射 场景修复 物体移除 图像修复 3D一致性 数据集 重建方法

📋 核心要点

  1. 3D高斯溅射场景中的物体移除与修复面临跨视角3D一致性的挑战,现有方法难以保证修复后的场景真实感。
  2. 论文核心在于评估不同2D修复器在3DGS场景修复中的表现,并提出一种基于重建的单步修复流程。
  3. 实验表明,基于重建的2D修复器优于生成模型,且从头初始化场景比微调现有场景效果更好,并构建了新的多物体数据集。

📝 摘要(中文)

本文研究了物体移除和修复3D高斯溅射(3DGS)场景的任务,重点关注跨相机视角的3D一致性问题。通过比较2D修复器在3D领域的适用性,发现基于重建的修复器在3D一致性方面优于生成扩散模型。将这些2D修复器集成到不同的单步方法中,用于创建和微调3DGS场景,结果表明从头开始初始化场景比微调现有场景产生更高质量的结果。利用最先进的生成式2D修复器,创建了一个直接的基线,强调了在3D设置中物体移除后进行修复的重要性。由于360°数据集很少包含真实世界的ground truth,并且具有挑战性的遮挡场景同样稀疏,因此本文引入了一个新的多物体场景,包含记录的ground truth数据和许多具有物体遮挡的视图。

🔬 方法详解

问题定义:论文旨在解决3D高斯溅射(3DGS)场景中,移除特定物体后进行场景修复(inpainting)的问题。现有方法,特别是直接应用2D图像修复技术到3D场景中时,难以保证跨视角的3D一致性,导致修复后的场景不真实或存在几何错误。此外,缺乏包含真实ground truth和复杂遮挡情况的3DGS数据集,也限制了对修复算法的有效评估。

核心思路:论文的核心思路是评估不同类型的2D图像修复器在3DGS场景修复中的表现,并探索不同的单步修复策略。通过实验发现,基于重建的2D修复器在保持3D一致性方面优于生成扩散模型。同时,论文强调了在进行修复之前,精确移除目标物体的重要性。

技术框架:论文的技术框架主要包括以下几个步骤:1) 选择不同的2D图像修复器,包括基于重建的方法和生成扩散模型。2) 将这些2D修复器集成到单步3DGS场景修复流程中,该流程可以是直接微调现有场景,也可以是从头开始重建场景。3) 使用新的多物体数据集和现有的360°数据集,对不同的修复方法进行评估。4) 通过比较修复后的场景质量和3D一致性,分析不同方法的优缺点。

关键创新:论文的关键创新点在于:1) 系统地评估了不同类型的2D图像修复器在3DGS场景修复中的性能,并指出了基于重建的方法的优势。2) 提出了从头开始初始化场景的修复策略,并证明其优于微调现有场景。3) 构建了一个新的多物体3DGS数据集,包含真实ground truth和复杂的遮挡情况,为3D场景修复的研究提供了新的评估基准。

关键设计:论文的关键设计包括:1) 选择了具有代表性的基于重建的2D修复器和生成扩散模型作为评估对象。2) 设计了两种单步修复流程:微调现有场景和从头开始重建场景。3) 使用LPIPS、PSNR和SSIM等指标来评估修复后的场景质量。4) 新数据集的设计考虑了多物体、遮挡和真实ground truth等因素。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,基于重建的2D修复器在3DGS场景修复中表现更佳,在3D一致性方面优于生成扩散模型。从头开始初始化场景的修复策略,相比于微调现有场景,能够产生更高质量的结果。论文提出的基线方法,以及新的多物体数据集,为未来的研究提供了参考。

🎯 应用场景

该研究成果可应用于虚拟现实、增强现实、三维重建、游戏开发等领域。例如,在VR/AR应用中,可以移除场景中不需要的物体,并自动修复场景,提高用户体验。在三维重建中,可以修复由于遮挡或数据缺失导致的场景空洞。在游戏开发中,可以快速编辑和修改游戏场景。

📄 摘要(原文)

The tasks of object removal and inpainting 3D Gaussian Splatting (3DGS) scenes face challenges such as 3D consistency across camera views. In comparing 2D inpainters and their suitability for the 3D domain, we find that reconstruction-based inpainters outperform generative diffusion models in 3D consistency. Integrating these 2D inpainters into different single-step methods for creating and finetuning 3DGS scenes, our results indicate that initializing the scene from scratch produces higher quality results than finetuning the existing scene. Using a state-of-the-art generative 2D inpainter, we create a straightforward baseline to underline the importance of object removal before inpainting in the 3D setting. Since 360° datasets rarely include real-world ground truths, and challenging occlusion scenarios are equally sparse, we introduce a novel multi-object scene with recorded ground truth data and many views with object occlusions.