Localized Gaussian Splatting Editing with Contextual Awareness

📄 arXiv: 2408.00083v2 📥 PDF

作者: Hanyuan Xiao, Yingshu Chen, Huajian Huang, Haolin Xiong, Jing Yang, Pratusha Prasad, Yajie Zhao

分类: cs.CV

发布日期: 2024-07-31 (更新: 2025-08-22)

备注: WACV 2025

DOI: 10.1109/WACV61041.2025.00509


💡 一句话要点

提出上下文感知局部高斯溅射编辑方法,实现光照一致的三维场景编辑。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 3D场景编辑 高斯溅射 扩散模型 光照一致性 图像修复 深度引导 分数蒸馏采样

📋 核心要点

  1. 现有文本引导的3D对象生成方法忽略了背景光照,导致插入或替换对象时出现光照不匹配的问题。
  2. 该方法利用2D扩散模型在图像修复上的优势,通过粗到精的优化流程,实现光照一致的3D场景局部编辑。
  3. 实验表明,该方法在包含复杂光照的真实场景中表现出良好的鲁棒性,优于现有的文本到3D编辑方法。

📝 摘要(中文)

本文提出了一种光照感知的3D场景编辑流程,用于3D高斯溅射(3DGS)表示。核心思想是利用最先进的条件2D扩散模型进行图像修复,使其在光照上与背景保持一致。为了利用训练良好的扩散模型进行3D对象生成的先验知识,该方法采用由粗到精的对象优化流程,并使用修复后的视图。在粗略阶段,给定理想的修复视图,实现图像到3D的提升,该过程利用了来自视图条件扩散模型的3D感知扩散先验,保留了条件图像中存在的光照。为了获得理想的修复图像,引入了锚视图提议(AVP)算法,以找到最能代表目标区域场景光照的单个视图。在纹理增强阶段,引入了一种新的深度引导修复分数蒸馏采样(DI-SDS),它利用修复扩散先验增强了几何和纹理细节,超越了第一粗略阶段中3D感知扩散先验知识的范围。DI-SDS不仅提供了细粒度的纹理增强,而且促使优化尊重场景光照。该方法有效地实现了局部编辑,并具有全局光照一致性,而无需显式地对光传输进行建模。通过评估包含明显高光和阴影的真实场景中的编辑,并与最先进的文本到3D编辑方法进行比较,证明了该方法的鲁棒性。

🔬 方法详解

问题定义:现有文本引导的3D对象生成方法在进行对象插入和替换时,忽略了场景的背景光照信息,导致生成的新对象与周围环境的光照不协调,缺乏真实感。因此,需要一种能够感知场景光照并生成光照一致的3D编辑方法。

核心思路:论文的核心思路是利用先进的2D扩散模型在图像修复方面的能力,该模型能够生成与周围环境光照一致的图像内容。通过将修复后的图像作为先验知识,指导3D高斯溅射的优化过程,从而实现光照一致的3D场景编辑。

技术框架:该方法采用粗到精的优化流程。首先,通过锚视图提议(AVP)算法选择一个最佳视角,并使用2D扩散模型修复该视角的图像,得到一个光照一致的初始3D表示。然后,利用深度引导的修复分数蒸馏采样(DI-SDS)方法,进一步优化3D高斯溅射的几何和纹理细节,使其更好地融入场景光照。

关键创新:该方法最重要的创新点在于利用2D扩散模型进行光照感知的3D编辑。与传统的3D编辑方法相比,该方法无需显式地建模光传输过程,而是通过2D扩散模型的先验知识,隐式地实现了光照一致性。此外,深度引导的修复分数蒸馏采样(DI-SDS)方法能够有效地利用修复图像的深度信息,进一步提升编辑效果。

关键设计:锚视图提议(AVP)算法用于选择最能代表目标区域光照的视角。深度引导的修复分数蒸馏采样(DI-SDS)方法使用修复图像的深度信息作为引导,优化3D高斯溅射的几何和纹理。损失函数的设计需要同时考虑3D重建的准确性和光照一致性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该方法在真实场景中进行了评估,结果表明,该方法能够有效地实现光照一致的3D场景编辑,并且在包含明显高光和阴影的复杂光照条件下,仍然表现出良好的鲁棒性。与现有的文本到3D编辑方法相比,该方法在光照一致性方面具有明显的优势。

🎯 应用场景

该研究成果可应用于虚拟现实、增强现实、游戏开发、电影制作等领域。例如,可以用于在现有3D场景中插入新的虚拟对象,或者替换现有对象,并保证新对象与场景的光照环境相协调,从而提升用户体验和视觉效果。该技术还可以用于修复破损的3D模型,使其恢复原有的光照效果。

📄 摘要(原文)

Recent text-guided generation of individual 3D object has achieved great success using diffusion priors. However, these methods are not suitable for object insertion and replacement tasks as they do not consider the background, leading to illumination mismatches within the environment. To bridge the gap, we introduce an illumination-aware 3D scene editing pipeline for 3D Gaussian Splatting (3DGS) representation. Our key observation is that inpainting by the state-of-the-art conditional 2D diffusion model is consistent with background in lighting. To leverage the prior knowledge from the well-trained diffusion models for 3D object generation, our approach employs a coarse-to-fine objection optimization pipeline with inpainted views. In the first coarse step, we achieve image-to-3D lifting given an ideal inpainted view. The process employs 3D-aware diffusion prior from a view-conditioned diffusion model, which preserves illumination present in the conditioning image. To acquire an ideal inpainted image, we introduce an Anchor View Proposal (AVP) algorithm to find a single view that best represents the scene illumination in target region. In the second Texture Enhancement step, we introduce a novel Depth-guided Inpainting Score Distillation Sampling (DI-SDS), which enhances geometry and texture details with the inpainting diffusion prior, beyond the scope of the 3D-aware diffusion prior knowledge in the first coarse step. DI-SDS not only provides fine-grained texture enhancement, but also urges optimization to respect scene lighting. Our approach efficiently achieves local editing with global illumination consistency without explicitly modeling light transport. We demonstrate robustness of our method by evaluating editing in real scenes containing explicit highlight and shadows, and compare against the state-of-the-art text-to-3D editing methods.