Visibility-Uncertainty-guided 3D Gaussian Inpainting via Scene Conceptional Learning
作者: Mingxuan Cui, Qing Guo, Yuyi Wang, Hongkai Yu, Di Lin, Qin Zou, Ming-Ming Cheng, Xi Li
分类: cs.CV
发布日期: 2025-04-23
备注: 14 pages, 12 figures, ICCV
💡 一句话要点
提出VISTA框架,通过可见性不确定性引导和场景概念学习实现高质量3D高斯补全。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 3D高斯溅射 场景补全 可见性不确定性 场景概念学习 扩散模型
📋 核心要点
- 现有3D补全方法难以有效利用多视角互补信息,尤其是在遮挡和不确定性较高的区域。
- 本文提出基于可见性不确定性引导的3D高斯补全,并结合场景概念学习,提升补全质量。
- 实验表明,VISTA在静态和动态场景下均优于现有方法,能生成高质量、无伪影的补全结果。
📝 摘要(中文)
本文扩展了3D高斯溅射(3DGS)在场景补全方面的能力,旨在将场景中被遮挡的对象替换为与周围环境无缝融合的新内容。与2D图像补全不同,3D高斯补全(3DGI)的挑战在于如何有效地利用来自多个输入视角的互补视觉和语义线索,因为一个视图中被遮挡的区域可能在其他视图中可见。为此,我们提出了一种方法,该方法测量不同输入视图中3D点可见性的不确定性,并利用这些不确定性来指导3DGI利用互补的视觉线索。我们还利用不确定性来学习没有被遮挡对象的场景的语义概念,并使用扩散模型根据学习到的概念填充输入图像中被遮挡的对象。最后,我们构建了一个新的3DGI框架VISTA,通过将可见性不确定性引导的3DGI与场景概念学习相结合。VISTA生成高质量的3DGS模型,能够合成无伪影且自然补全的新视角。此外,我们的方法还扩展到处理由时间对象变化引起的动态干扰因素,从而增强了其在各种场景重建中的多功能性。我们使用两个具有挑战性的数据集证明了我们的方法优于最先进的技术:SPIn-NeRF数据集,包含10个不同的静态3D补全场景,以及一个来自UTB180的水下3D补全数据集,包括快速移动的鱼作为补全目标。
🔬 方法详解
问题定义:3D高斯补全旨在从部分观测的3D场景中恢复完整场景,尤其是在存在遮挡和动态干扰的情况下。现有方法难以有效融合多视角信息,导致补全结果存在伪影或不自然。现有方法通常依赖于完整的几何信息,对遮挡区域的处理能力有限。
核心思路:本文的核心思路是利用可见性不确定性来指导3D高斯补全过程。通过估计每个3D高斯在不同视角下的可见性不确定性,可以更有效地利用多视角信息,避免在不确定区域引入伪影。同时,引入场景概念学习,利用扩散模型生成与场景语义一致的补全内容。
技术框架:VISTA框架主要包含两个模块:可见性不确定性引导的3D高斯补全和场景概念学习。首先,计算每个3D高斯在不同视角下的可见性不确定性。然后,利用这些不确定性来指导3D高斯参数的优化,使其更好地融合多视角信息。同时,利用不确定性学习场景的语义概念,并使用扩散模型生成补全区域的内容。最后,将生成的补全内容与原始场景融合,得到完整的3D高斯模型。
关键创新:本文的关键创新在于引入了可见性不确定性来指导3D高斯补全。通过显式地建模可见性不确定性,可以更有效地利用多视角信息,避免在不确定区域引入伪影。此外,结合场景概念学习,可以生成与场景语义一致的补全内容,进一步提升补全质量。
关键设计:可见性不确定性通过计算每个3D高斯在不同视角下的投影误差来估计。场景概念学习使用一个扩散模型,该模型以场景的潜在表示为条件,生成补全区域的内容。损失函数包括重建损失、正则化损失和对抗损失,用于优化3D高斯参数和扩散模型。
🖼️ 关键图片
📊 实验亮点
实验结果表明,VISTA在SPIn-NeRF和水下3D补全数据集上均取得了优于现有方法的性能。在SPIn-NeRF数据集上,VISTA在PSNR、SSIM和LPIPS等指标上均取得了显著提升。在水下3D补全数据集上,VISTA能够有效地补全快速移动的鱼,生成高质量的补全结果。实验证明了VISTA在静态和动态场景下的有效性。
🎯 应用场景
该研究成果可应用于三维场景重建、虚拟现实、增强现实等领域。例如,可以用于修复损坏的三维模型,或者在虚拟场景中移除不需要的对象。在水下机器人应用中,可以用于补全被水体遮挡的场景区域,提高水下环境的感知能力。未来,该技术有望在自动驾驶、机器人导航等领域发挥重要作用。
📄 摘要(原文)
3D Gaussian Splatting (3DGS) has emerged as a powerful and efficient 3D representation for novel view synthesis. This paper extends 3DGS capabilities to inpainting, where masked objects in a scene are replaced with new contents that blend seamlessly with the surroundings. Unlike 2D image inpainting, 3D Gaussian inpainting (3DGI) is challenging in effectively leveraging complementary visual and semantic cues from multiple input views, as occluded areas in one view may be visible in others. To address this, we propose a method that measures the visibility uncertainties of 3D points across different input views and uses them to guide 3DGI in utilizing complementary visual cues. We also employ uncertainties to learn a semantic concept of scene without the masked object and use a diffusion model to fill masked objects in input images based on the learned concept. Finally, we build a novel 3DGI framework, VISTA, by integrating VISibility-uncerTainty-guided 3DGI with scene conceptuAl learning. VISTA generates high-quality 3DGS models capable of synthesizing artifact-free and naturally inpainted novel views. Furthermore, our approach extends to handling dynamic distractors arising from temporal object changes, enhancing its versatility in diverse scene reconstruction scenarios. We demonstrate the superior performance of our method over state-of-the-art techniques using two challenging datasets: the SPIn-NeRF dataset, featuring 10 diverse static 3D inpainting scenes, and an underwater 3D inpainting dataset derived from UTB180, including fast-moving fish as inpainting targets.