Generative Object Insertion in Gaussian Splatting with a Multi-View Diffusion Model
作者: Hongliang Zhong, Can Wang, Jingbo Zhang, Jing Liao
分类: cs.CV, cs.AI, cs.GR
发布日期: 2024-09-25 (更新: 2025-04-11)
备注: Accepted by Visual Informatics. Project Page: https://github.com/JiuTongBro/MultiView_Inpaint
DOI: 10.1016/j.visinf.2025.100238
💡 一句话要点
提出基于多视角扩散模型的高斯溅射对象插入方法,实现高质量三维场景重建。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 高斯溅射 对象插入 多视角扩散模型 三维重建 条件生成
📋 核心要点
- 现有三维对象插入方法依赖SDS优化或单视图修复,难以保证生成结果的质量。
- 论文提出多视角扩散模型MVInpainter,利用预训练的视频扩散模型和ControlNet实现视角一致的对象修复。
- 实验结果表明,该方法能生成多样化、视角一致且高质量的对象插入效果,优于现有方法。
📝 摘要(中文)
本文提出了一种新颖的方法,用于在高斯溅射表示的三维内容中插入新对象,以实现多功能场景重建。现有方法依赖于SDS优化或单视图修复,通常难以产生高质量结果。为了解决这个问题,我们引入了一个多视角扩散模型MVInpainter,它建立在预训练的稳定视频扩散模型之上,以促进视角一致的对象修复。在MVInpainter中,我们结合了一个基于ControlNet的条件注入模块,以实现可控和更可预测的多视角生成。在生成多视角修复结果后,我们进一步提出了一种mask-aware的三维重建技术,以从这些稀疏的修复视图中改进高斯溅射重建。通过利用这些技术,我们的方法产生了多样化的结果,确保了视角一致和和谐的插入,并产生了更好的对象质量。大量实验表明,我们的方法优于现有方法。
🔬 方法详解
问题定义:论文旨在解决三维场景中对象插入的问题。现有方法,如基于Score Distillation Sampling (SDS) 的优化或单视图图像修复,在生成高质量、视角一致的对象插入结果方面存在局限性。这些方法通常难以保证插入对象与周围环境的和谐融合,且生成质量不高。
核心思路:论文的核心思路是利用多视角扩散模型,从多个视角生成一致的修复结果,然后利用这些结果来优化高斯溅射表示。通过在多个视角上进行修复,可以更好地保证插入对象与场景的几何和外观一致性。同时,利用ControlNet进行条件控制,可以提高生成结果的可控性和可预测性。
技术框架:整体框架包含以下几个主要阶段:1) 利用预训练的稳定视频扩散模型构建多视角扩散模型MVInpainter。2) 在MVInpainter中,使用ControlNet进行条件注入,控制生成过程。3) 从多个视角生成修复后的图像。4) 利用mask-aware的三维重建技术,从这些稀疏的修复视图中优化高斯溅射表示。
关键创新:论文的关键创新在于:1) 提出了多视角扩散模型MVInpainter,用于生成视角一致的对象修复结果。2) 引入了基于ControlNet的条件注入模块,提高了生成过程的可控性。3) 提出了mask-aware的三维重建技术,用于从稀疏的修复视图中优化高斯溅射表示。与现有方法相比,该方法能够更好地保证插入对象与场景的几何和外观一致性,并生成更高质量的结果。
关键设计:MVInpainter基于预训练的稳定视频扩散模型,并针对多视角修复任务进行了调整。ControlNet被用于控制生成过程,例如,可以根据用户指定的草图或分割图来引导生成。Mask-aware的三维重建技术利用了修复区域的mask信息,以更好地优化高斯溅射表示。具体的损失函数和网络结构等技术细节在论文中有详细描述。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在对象插入的质量、视角一致性和场景融合度方面均优于现有方法。具体而言,该方法能够生成更逼真、更自然的插入效果,并且能够更好地保持插入对象与周围环境的几何和外观一致性。定性和定量结果都验证了该方法的有效性。
🎯 应用场景
该研究成果可应用于三维场景编辑、虚拟现实内容创作、游戏开发等领域。例如,用户可以利用该方法在现有的三维场景中轻松插入新的对象,并保证插入对象与场景的和谐融合。该技术还可以用于修复三维扫描数据中的缺失部分,提高三维模型的完整性和质量。未来,该技术有望成为三维内容创作的重要工具。
📄 摘要(原文)
Generating and inserting new objects into 3D content is a compelling approach for achieving versatile scene recreation. Existing methods, which rely on SDS optimization or single-view inpainting, often struggle to produce high-quality results. To address this, we propose a novel method for object insertion in 3D content represented by Gaussian Splatting. Our approach introduces a multi-view diffusion model, dubbed MVInpainter, which is built upon a pre-trained stable video diffusion model to facilitate view-consistent object inpainting. Within MVInpainter, we incorporate a ControlNet-based conditional injection module to enable controlled and more predictable multi-view generation. After generating the multi-view inpainted results, we further propose a mask-aware 3D reconstruction technique to refine Gaussian Splatting reconstruction from these sparse inpainted views. By leveraging these fabricate techniques, our approach yields diverse results, ensures view-consistent and harmonious insertions, and produces better object quality. Extensive experiments demonstrate that our approach outperforms existing methods.