MVSplat360: Feed-Forward 360 Scene Synthesis from Sparse Views

📄 arXiv: 2411.04924v1 📥 PDF

作者: Yuedong Chen, Chuanxia Zheng, Haofei Xu, Bohan Zhuang, Andrea Vedaldi, Tat-Jen Cham, Jianfei Cai

分类: cs.CV

发布日期: 2024-11-07

备注: NeurIPS 2024, Project page: https://donydchen.github.io/mvsplat360, Code: https://github.com/donydchen/mvsplat360

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

MVSplat360:基于稀疏视角的360度场景前馈式合成方法

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 新视角合成 360度场景 稀疏视角 3D高斯溅射 视频扩散模型 几何感知 端到端训练

📋 核心要点

  1. 传统新视角合成方法在稀疏视角下,由于信息不足和视角重叠少,难以生成高质量360度场景。
  2. MVSplat360结合几何感知的3D重建和时间一致性视频生成,将3DGS特征渲染到SVD潜在空间,引导去噪。
  3. MVSplat360在DL3DV-10K和RealEstate10K数据集上表现出色,证明了其在稀疏视角360度场景合成中的有效性。

📝 摘要(中文)

MVSplat360是一种前馈方法,用于从稀疏观测中合成各种真实世界场景的360°新视角。由于输入视图之间的最小重叠和提供的视觉信息不足,这种设置本质上是不适定的,这使得传统方法难以实现高质量的结果。MVSplat360通过有效地结合几何感知的3D重建与时间一致的视频生成来解决这个问题。具体来说,它重构了一个前馈3D高斯溅射(3DGS)模型,以将特征直接渲染到预训练的Stable Video Diffusion(SVD)模型的潜在空间中,其中这些特征然后充当姿势和视觉线索,以指导去噪过程并产生逼真的3D一致视图。我们的模型是端到端可训练的,并支持使用少至5个稀疏输入视图渲染任意视图。为了评估MVSplat360的性能,我们使用具有挑战性的DL3DV-10K数据集引入了一个新的基准,其中MVSplat360在广泛扫描甚至360° NVS任务上实现了优于最先进方法的视觉质量。在现有基准RealEstate10K上的实验也证实了我们模型的有效性。

🔬 方法详解

问题定义:论文旨在解决从稀疏视角(例如仅5个视角)合成高质量360度场景的新视角合成(NVS)问题。现有方法在视角稀疏的情况下,由于缺乏足够的几何信息和视角间的重叠,难以准确重建场景结构和生成逼真的图像,尤其是在360度场景中,问题更加突出。

核心思路:论文的核心思路是将几何感知的3D重建与预训练的视频生成模型相结合。具体来说,利用3D高斯溅射(3DGS)进行场景的几何表示,并将渲染的特征嵌入到Stable Video Diffusion (SVD)模型的潜在空间中。SVD模型利用这些特征作为视觉和姿态引导,生成具有时间一致性的新视角图像。

技术框架:MVSplat360的整体框架包含以下几个主要模块:1) 稀疏视角图像输入;2) 基于3DGS的场景几何表示和特征渲染;3) 将渲染的特征投影到预训练的SVD模型的潜在空间;4) 利用SVD模型进行图像生成,其中3DGS渲染的特征作为条件输入,引导SVD模型的去噪过程;5) 输出合成的新视角图像。整个模型是端到端可训练的。

关键创新:MVSplat360的关键创新在于将3DGS与预训练的SVD模型相结合,实现几何感知和时间一致性的新视角合成。与直接使用3DGS渲染图像的方法相比,MVSplat360利用SVD模型的先验知识,能够生成更逼真、更具有时间一致性的图像。此外,将3DGS特征渲染到SVD潜在空间,使得模型能够利用SVD模型的强大生成能力。

关键设计:MVSplat360的关键设计包括:1) 使用3DGS进行场景表示,能够高效地进行渲染和优化;2) 将3DGS渲染的特征作为条件输入到SVD模型中,引导SVD模型的生成过程;3) 使用端到端训练的方式,优化3DGS和SVD模型之间的协同作用;4) 损失函数的设计,可能包括图像重建损失、感知损失等,以保证生成图像的质量和逼真度。(具体损失函数细节未知)

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MVSplat360在DL3DV-10K数据集上取得了显著的性能提升,超越了现有最先进的方法。该模型能够仅使用5个稀疏视角生成高质量的360度场景,在视觉质量和时间一致性方面均表现出色。在RealEstate10K数据集上的实验也验证了MVSplat360的有效性。(具体性能数据未知)

🎯 应用场景

MVSplat360技术可应用于虚拟现实(VR)、增强现实(AR)、机器人导航、自动驾驶等领域。例如,在VR/AR中,用户可以通过少量图像快速生成逼真的360度场景,提升沉浸式体验。在机器人导航和自动驾驶中,该技术可以帮助机器人或车辆从有限的传感器数据中重建周围环境,实现更安全、更可靠的导航。

📄 摘要(原文)

We introduce MVSplat360, a feed-forward approach for 360° novel view synthesis (NVS) of diverse real-world scenes, using only sparse observations. This setting is inherently ill-posed due to minimal overlap among input views and insufficient visual information provided, making it challenging for conventional methods to achieve high-quality results. Our MVSplat360 addresses this by effectively combining geometry-aware 3D reconstruction with temporally consistent video generation. Specifically, it refactors a feed-forward 3D Gaussian Splatting (3DGS) model to render features directly into the latent space of a pre-trained Stable Video Diffusion (SVD) model, where these features then act as pose and visual cues to guide the denoising process and produce photorealistic 3D-consistent views. Our model is end-to-end trainable and supports rendering arbitrary views with as few as 5 sparse input views. To evaluate MVSplat360's performance, we introduce a new benchmark using the challenging DL3DV-10K dataset, where MVSplat360 achieves superior visual quality compared to state-of-the-art methods on wide-sweeping or even 360° NVS tasks. Experiments on the existing benchmark RealEstate10K also confirm the effectiveness of our model. The video results are available on our project page: https://donydchen.github.io/mvsplat360.