Decompositional Neural Scene Reconstruction with Generative Diffusion Prior

📄 arXiv: 2503.14830v1 📥 PDF

作者: Junfeng Ni, Yu Liu, Ruijie Lu, Zirui Zhou, Song-Chun Zhu, Yixin Chen, Siyuan Huang

分类: cs.CV

发布日期: 2025-03-19

备注: CVPR'25. Project page: https://dp-recon.github.io/

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

DP-Recon:利用生成扩散先验实现可分解的神经场景重建,解决稀疏视图下的遮挡问题。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 神经场景重建 扩散模型 Score Distillation Sampling 稀疏视图重建 可分解重建

📋 核心要点

  1. 现有方法在稀疏视图下进行3D场景重建时,在欠约束区域性能显著下降,且难以恢复被遮挡的区域。
  2. DP-Recon利用生成扩散先验,通过Score Distillation Sampling优化物体神经表示,补充缺失信息,并引入可见性引导动态调整损失权重。
  3. 实验表明,DP-Recon在稀疏视图下显著优于现有方法,并支持基于文本的编辑和生成高质量的物体网格。

📝 摘要(中文)

本文提出了一种名为DP-Recon的方法,用于实现3D场景的可分解重建,旨在获得场景中所有物体的完整形状和详细纹理。该方法尤其针对稀疏视图输入下的重建挑战。现有方法通常采用语义或几何正则化,但在欠约束区域性能下降,且无法恢复遮挡区域。DP-Recon的核心思想是利用Score Distillation Sampling (SDS)形式的扩散先验,优化每个独立物体的神经表示,从而补充缺失信息。为了避免重建和生成引导之间的冲突,引入了一种可见性引导方法,动态调整每个像素的SDS损失权重。实验结果表明,DP-Recon在Replica和ScanNet++数据集上显著优于现有方法,在10个视图下的物体重建效果甚至超过了基线方法在100个视图下的表现。该方法还支持基于文本的几何和外观编辑,并生成带有详细UV贴图的可分解物体网格,从而支持逼真的视觉特效编辑。

🔬 方法详解

问题定义:论文旨在解决在稀疏视图下,对3D场景进行可分解重建的问题。现有方法,如基于语义或几何正则化的方法,在欠约束区域(例如遮挡区域或缺乏观测的区域)表现不佳,无法有效恢复物体的完整形状和纹理。这些方法依赖于输入图像的信息,当信息不足时,重建质量会显著下降。

核心思路:论文的核心思路是利用生成扩散模型提供的先验知识来补充缺失的信息。具体来说,通过Score Distillation Sampling (SDS) 将扩散模型的生成能力引入到神经场景表示的优化过程中。SDS允许使用预训练的扩散模型作为一种正则化手段,引导神经表示生成更逼真、更完整的物体形状和纹理。

技术框架:DP-Recon的整体框架包含以下几个主要模块:1) 神经场景表示:使用神经辐射场(NeRF)或其他神经表示方法来表示场景中的每个物体。2) 扩散先验:利用预训练的扩散模型,通过SDS生成目标场景的新视角图像。3) 可见性引导:根据输入图像的可见性信息,动态调整SDS损失的权重,以平衡重建的准确性和生成先验的引导。4) 优化过程:通过最小化重建损失和SDS损失,优化神经场景表示的参数。

关键创新:该方法最重要的创新点在于将生成扩散模型作为一种先验知识引入到神经场景重建中。与传统的正则化方法不同,扩散模型能够提供更强的生成能力,从而更好地恢复欠约束区域的信息。此外,可见性引导机制能够有效地平衡重建的准确性和生成先验的引导,避免生成与输入图像不一致的结果。

关键设计:1) SDS损失:使用SDS损失来衡量神经表示生成的图像与扩散模型生成图像之间的差异。2) 可见性权重:根据输入图像的可见性信息,为每个像素分配一个权重,用于调整SDS损失的贡献。可见像素的权重较低,而遮挡像素的权重较高,从而鼓励扩散模型在遮挡区域提供更多的信息。3) 网络结构:可以使用标准的NeRF网络结构或其他神经表示方法。4) 优化策略:采用交替优化策略,首先优化神经表示的参数,然后更新扩散模型的参数。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,DP-Recon在Replica和ScanNet++数据集上显著优于现有方法。例如,在10个视图下的物体重建效果甚至超过了基线方法在100个视图下的表现。此外,该方法还支持基于文本的几何和外观编辑,并生成带有详细UV贴图的可分解物体网格,从而支持逼真的视觉特效编辑。这些结果表明,DP-Recon在稀疏视图下的3D场景重建方面具有显著的优势。

🎯 应用场景

DP-Recon在虚拟现实、增强现实、游戏开发、电影制作等领域具有广泛的应用前景。它可以用于创建高质量的3D场景模型,支持逼真的渲染和交互。此外,该方法还可以用于物体编辑和场景理解,例如,可以根据文本描述修改场景中的物体形状和纹理。未来,该技术有望应用于自动驾驶、机器人导航等领域,为这些应用提供更准确、更鲁棒的场景感知能力。

📄 摘要(原文)

Decompositional reconstruction of 3D scenes, with complete shapes and detailed texture of all objects within, is intriguing for downstream applications but remains challenging, particularly with sparse views as input. Recent approaches incorporate semantic or geometric regularization to address this issue, but they suffer significant degradation in underconstrained areas and fail to recover occluded regions. We argue that the key to solving this problem lies in supplementing missing information for these areas. To this end, we propose DP-Recon, which employs diffusion priors in the form of Score Distillation Sampling (SDS) to optimize the neural representation of each individual object under novel views. This provides additional information for the underconstrained areas, but directly incorporating diffusion prior raises potential conflicts between the reconstruction and generative guidance. Therefore, we further introduce a visibility-guided approach to dynamically adjust the per-pixel SDS loss weights. Together these components enhance both geometry and appearance recovery while remaining faithful to input images. Extensive experiments across Replica and ScanNet++ demonstrate that our method significantly outperforms SOTA methods. Notably, it achieves better object reconstruction under 10 views than the baselines under 100 views. Our method enables seamless text-based editing for geometry and appearance through SDS optimization and produces decomposed object meshes with detailed UV maps that support photorealistic Visual effects (VFX) editing. The project page is available at https://dp-recon.github.io/.