Generative Object Insertion in Gaussian Splatting with a Multi-View Diffusion Model

作者: Hongliang Zhong, Can Wang, Jingbo Zhang, Jing Liao

分类: cs.CV, cs.AI, cs.GR

发布日期: 2024-09-25 (更新: 2025-04-11)

备注: Accepted by Visual Informatics. Project Page: https://github.com/JiuTongBro/MultiView_Inpaint

DOI: 10.1016/j.visinf.2025.100238

💡 一句话要点

提出基于多视角扩散模型的高斯溅射对象插入方法，实现高质量三维场景重建。

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 高斯溅射 对象插入 多视角扩散模型 三维重建 条件生成

📋 核心要点

现有三维对象插入方法依赖SDS优化或单视图修复，难以保证生成结果的质量。
论文提出多视角扩散模型MVInpainter，利用预训练的视频扩散模型和ControlNet实现视角一致的对象修复。
实验结果表明，该方法能生成多样化、视角一致且高质量的对象插入效果，优于现有方法。

📝 摘要（中文）

本文提出了一种新颖的方法，用于在高斯溅射表示的三维内容中插入新对象，以实现多功能场景重建。现有方法依赖于SDS优化或单视图修复，通常难以产生高质量结果。为了解决这个问题，我们引入了一个多视角扩散模型MVInpainter，它建立在预训练的稳定视频扩散模型之上，以促进视角一致的对象修复。在MVInpainter中，我们结合了一个基于ControlNet的条件注入模块，以实现可控和更可预测的多视角生成。在生成多视角修复结果后，我们进一步提出了一种mask-aware的三维重建技术，以从这些稀疏的修复视图中改进高斯溅射重建。通过利用这些技术，我们的方法产生了多样化的结果，确保了视角一致和和谐的插入，并产生了更好的对象质量。大量实验表明，我们的方法优于现有方法。

🔬 方法详解

问题定义：论文旨在解决三维场景中对象插入的问题。现有方法，如基于Score Distillation Sampling (SDS) 的优化或单视图图像修复，在生成高质量、视角一致的对象插入结果方面存在局限性。这些方法通常难以保证插入对象与周围环境的和谐融合，且生成质量不高。

核心思路：论文的核心思路是利用多视角扩散模型，从多个视角生成一致的修复结果，然后利用这些结果来优化高斯溅射表示。通过在多个视角上进行修复，可以更好地保证插入对象与场景的几何和外观一致性。同时，利用ControlNet进行条件控制，可以提高生成结果的可控性和可预测性。

技术框架：整体框架包含以下几个主要阶段：1) 利用预训练的稳定视频扩散模型构建多视角扩散模型MVInpainter。2) 在MVInpainter中，使用ControlNet进行条件注入，控制生成过程。3) 从多个视角生成修复后的图像。4) 利用mask-aware的三维重建技术，从这些稀疏的修复视图中优化高斯溅射表示。

关键创新：论文的关键创新在于：1) 提出了多视角扩散模型MVInpainter，用于生成视角一致的对象修复结果。2) 引入了基于ControlNet的条件注入模块，提高了生成过程的可控性。3) 提出了mask-aware的三维重建技术，用于从稀疏的修复视图中优化高斯溅射表示。与现有方法相比，该方法能够更好地保证插入对象与场景的几何和外观一致性，并生成更高质量的结果。

关键设计：MVInpainter基于预训练的稳定视频扩散模型，并针对多视角修复任务进行了调整。ControlNet被用于控制生成过程，例如，可以根据用户指定的草图或分割图来引导生成。Mask-aware的三维重建技术利用了修复区域的mask信息，以更好地优化高斯溅射表示。具体的损失函数和网络结构等技术细节在论文中有详细描述。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该方法在对象插入的质量、视角一致性和场景融合度方面均优于现有方法。具体而言，该方法能够生成更逼真、更自然的插入效果，并且能够更好地保持插入对象与周围环境的几何和外观一致性。定性和定量结果都验证了该方法的有效性。

🎯 应用场景

该研究成果可应用于三维场景编辑、虚拟现实内容创作、游戏开发等领域。例如，用户可以利用该方法在现有的三维场景中轻松插入新的对象，并保证插入对象与场景的和谐融合。该技术还可以用于修复三维扫描数据中的缺失部分，提高三维模型的完整性和质量。未来，该技术有望成为三维内容创作的重要工具。

📄 摘要（原文）

Generating and inserting new objects into 3D content is a compelling approach for achieving versatile scene recreation. Existing methods, which rely on SDS optimization or single-view inpainting, often struggle to produce high-quality results. To address this, we propose a novel method for object insertion in 3D content represented by Gaussian Splatting. Our approach introduces a multi-view diffusion model, dubbed MVInpainter, which is built upon a pre-trained stable video diffusion model to facilitate view-consistent object inpainting. Within MVInpainter, we incorporate a ControlNet-based conditional injection module to enable controlled and more predictable multi-view generation. After generating the multi-view inpainted results, we further propose a mask-aware 3D reconstruction technique to refine Gaussian Splatting reconstruction from these sparse inpainted views. By leveraging these fabricate techniques, our approach yields diverse results, ensures view-consistent and harmonious insertions, and produces better object quality. Extensive experiments demonstrate that our approach outperforms existing methods.

Generative Object Insertion in Gaussian Splatting with a Multi-View Diffusion Model

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理