Sp2360: Sparse-view 360 Scene Reconstruction using Cascaded 2D Diffusion Priors

📄 arXiv: 2405.16517v2 📥 PDF

作者: Soumava Paul, Christopher Wewer, Bernt Schiele, Jan Eric Lenssen

分类: cs.CV

发布日期: 2024-05-26 (更新: 2024-06-02)

备注: 18 pages, 11 figures, 4 tables


💡 一句话要点

Sp2360:利用级联2D扩散先验实现稀疏视角下的360场景重建

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 360场景重建 稀疏视角 扩散模型 3D高斯 图像修复 伪视角生成 神经渲染 场景表示

📋 核心要点

  1. 现有稀疏视角360场景重建方法在信息不足的情况下难以生成高质量、细节丰富的场景。
  2. Sp2360利用预训练2D扩散模型作为先验,通过级联的图像修复和伪影去除,迭代优化3D高斯表示。
  3. 实验表明,Sp2360在Mip-NeRF360数据集上显著优于现有方法,能从少量视图生成高质量360场景。

📝 摘要(中文)

本文旨在利用潜在扩散模型(LDM)的先验知识,解决360度场景的稀疏视角重建问题。稀疏视角设置是病态且欠约束的,特别是对于相机围绕一个点旋转360度的场景,因为除了集中于中心感兴趣对象的一些正面视图之外,没有可用的视觉信息。本文表明,预训练的2D扩散模型可以通过低成本的微调显著改善场景的重建效果。具体来说,我们提出SparseSplat360(Sp2360),该方法采用级联的图像修复和伪影去除模型来填充缺失的细节并清理新视角。由于卓越的训练和渲染速度,我们使用3D高斯显式场景表示,而不是基于NeRF的隐式表示。我们提出了一种迭代更新策略,将生成的伪新视角与现有3D高斯融合,这些3D高斯拟合到初始稀疏输入。因此,我们获得了一个多视角一致的场景表示,其细节与观察到的输入一致。在具有挑战性的Mip-NeRF360数据集上的评估表明,我们提出的2D到3D蒸馏算法显著提高了适应于稀疏视角设置的3DGS正则化版本的性能,并且优于现有的360场景重建中的稀疏视角重建方法。从定性上看,我们的方法可以从少至9个输入视图生成完整的360场景,并具有高度的前景和背景细节。

🔬 方法详解

问题定义:论文旨在解决从少量(稀疏)视角重建360度场景的问题。现有方法在视角稀疏的情况下,难以生成细节丰富且视角一致的3D场景,尤其是在缺乏足够视觉信息的情况下,重建质量会显著下降。现有方法通常依赖于隐式神经表示(如NeRF),训练速度慢,且难以捕捉精细的几何细节。

核心思路:论文的核心思路是利用预训练的2D扩散模型作为先验知识,指导3D场景的重建过程。通过将2D扩散模型生成的伪新视角与现有的3D场景表示融合,可以有效地填充缺失的细节,并提高视角一致性。选择3D高斯作为场景表示,是因为其具有更快的训练和渲染速度,更适合迭代优化。

技术框架:Sp2360的整体框架包含以下几个主要阶段:1) 初始化:使用现有的稀疏视角图像,初始化3D高斯场景表示。2) 伪视角生成:利用预训练的2D扩散模型,从已有的视角生成伪新视角。3) 融合与优化:将生成的伪新视角与现有的3D高斯表示融合,并进行迭代优化,以提高场景的细节和视角一致性。4) 级联优化:使用级联的图像修复和伪影去除模型,进一步提高生成图像的质量。

关键创新:该方法最重要的创新点在于将预训练的2D扩散模型作为先验知识,用于指导3D场景的重建。与传统的基于几何或隐式神经表示的方法不同,Sp2360利用了2D扩散模型强大的生成能力,从而可以在稀疏视角下生成更逼真、细节更丰富的3D场景。此外,使用3D高斯作为场景表示,显著提高了训练和渲染速度。

关键设计:Sp2360的关键设计包括:1) 级联的图像修复和伪影去除模型,用于提高生成图像的质量。2) 迭代更新策略,用于将生成的伪新视角与现有的3D高斯表示融合。3) 损失函数的设计,用于保证重建场景的视角一致性和细节丰富性。具体的损失函数细节未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Sp2360在Mip-NeRF360数据集上进行了评估,实验结果表明,该方法显著优于现有的稀疏视角重建方法。具体来说,Sp2360在重建质量和视角一致性方面都取得了显著提升,能够从少至9个输入视图生成高质量的360场景,并具有高度的前景和背景细节。具体性能指标和提升幅度未知。

🎯 应用场景

该研究成果可应用于虚拟现实、增强现实、机器人导航、三维重建等领域。例如,用户只需提供少量视角的照片,即可重建出完整的360度场景,从而实现沉浸式的虚拟体验。该技术还可用于机器人导航,帮助机器人在未知环境中进行探索和定位。未来,该方法有望应用于自动驾驶、城市建模等更广泛的领域。

📄 摘要(原文)

We aim to tackle sparse-view reconstruction of a 360 3D scene using priors from latent diffusion models (LDM). The sparse-view setting is ill-posed and underconstrained, especially for scenes where the camera rotates 360 degrees around a point, as no visual information is available beyond some frontal views focused on the central object(s) of interest. In this work, we show that pretrained 2D diffusion models can strongly improve the reconstruction of a scene with low-cost fine-tuning. Specifically, we present SparseSplat360 (Sp2360), a method that employs a cascade of in-painting and artifact removal models to fill in missing details and clean novel views. Due to superior training and rendering speeds, we use an explicit scene representation in the form of 3D Gaussians over NeRF-based implicit representations. We propose an iterative update strategy to fuse generated pseudo novel views with existing 3D Gaussians fitted to the initial sparse inputs. As a result, we obtain a multi-view consistent scene representation with details coherent with the observed inputs. Our evaluation on the challenging Mip-NeRF360 dataset shows that our proposed 2D to 3D distillation algorithm considerably improves the performance of a regularized version of 3DGS adapted to a sparse-view setting and outperforms existing sparse-view reconstruction methods in 360 scene reconstruction. Qualitatively, our method generates entire 360 scenes from as few as 9 input views, with a high degree of foreground and background detail.