MVSplat360: Feed-Forward 360 Scene Synthesis from Sparse Views

作者: Yuedong Chen, Chuanxia Zheng, Haofei Xu, Bohan Zhuang, Andrea Vedaldi, Tat-Jen Cham, Jianfei Cai

分类: cs.CV

发布日期: 2024-11-07

备注: NeurIPS 2024, Project page: https://donydchen.github.io/mvsplat360, Code: https://github.com/donydchen/mvsplat360

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

MVSplat360：基于稀疏视角的360度场景前馈式合成方法

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 新视角合成 360度场景 稀疏视角 3D高斯溅射 视频扩散模型 几何感知 端到端训练

📋 核心要点

传统新视角合成方法在稀疏视角下，由于信息不足和视角重叠少，难以生成高质量360度场景。
MVSplat360结合几何感知的3D重建和时间一致性视频生成，将3DGS特征渲染到SVD潜在空间，引导去噪。
MVSplat360在DL3DV-10K和RealEstate10K数据集上表现出色，证明了其在稀疏视角360度场景合成中的有效性。

📝 摘要（中文）

MVSplat360是一种前馈方法，用于从稀疏观测中合成各种真实世界场景的360°新视角。由于输入视图之间的最小重叠和提供的视觉信息不足，这种设置本质上是不适定的，这使得传统方法难以实现高质量的结果。MVSplat360通过有效地结合几何感知的3D重建与时间一致的视频生成来解决这个问题。具体来说，它重构了一个前馈3D高斯溅射（3DGS）模型，以将特征直接渲染到预训练的Stable Video Diffusion（SVD）模型的潜在空间中，其中这些特征然后充当姿势和视觉线索，以指导去噪过程并产生逼真的3D一致视图。我们的模型是端到端可训练的，并支持使用少至5个稀疏输入视图渲染任意视图。为了评估MVSplat360的性能，我们使用具有挑战性的DL3DV-10K数据集引入了一个新的基准，其中MVSplat360在广泛扫描甚至360° NVS任务上实现了优于最先进方法的视觉质量。在现有基准RealEstate10K上的实验也证实了我们模型的有效性。

🔬 方法详解

问题定义：论文旨在解决从稀疏视角（例如仅5个视角）合成高质量360度场景的新视角合成（NVS）问题。现有方法在视角稀疏的情况下，由于缺乏足够的几何信息和视角间的重叠，难以准确重建场景结构和生成逼真的图像，尤其是在360度场景中，问题更加突出。

核心思路：论文的核心思路是将几何感知的3D重建与预训练的视频生成模型相结合。具体来说，利用3D高斯溅射（3DGS）进行场景的几何表示，并将渲染的特征嵌入到Stable Video Diffusion (SVD)模型的潜在空间中。SVD模型利用这些特征作为视觉和姿态引导，生成具有时间一致性的新视角图像。

技术框架：MVSplat360的整体框架包含以下几个主要模块：1) 稀疏视角图像输入；2) 基于3DGS的场景几何表示和特征渲染；3) 将渲染的特征投影到预训练的SVD模型的潜在空间；4) 利用SVD模型进行图像生成，其中3DGS渲染的特征作为条件输入，引导SVD模型的去噪过程；5) 输出合成的新视角图像。整个模型是端到端可训练的。

关键创新：MVSplat360的关键创新在于将3DGS与预训练的SVD模型相结合，实现几何感知和时间一致性的新视角合成。与直接使用3DGS渲染图像的方法相比，MVSplat360利用SVD模型的先验知识，能够生成更逼真、更具有时间一致性的图像。此外，将3DGS特征渲染到SVD潜在空间，使得模型能够利用SVD模型的强大生成能力。

关键设计：MVSplat360的关键设计包括：1) 使用3DGS进行场景表示，能够高效地进行渲染和优化；2) 将3DGS渲染的特征作为条件输入到SVD模型中，引导SVD模型的生成过程；3) 使用端到端训练的方式，优化3DGS和SVD模型之间的协同作用；4) 损失函数的设计，可能包括图像重建损失、感知损失等，以保证生成图像的质量和逼真度。（具体损失函数细节未知）

🖼️ 关键图片

📊 实验亮点

MVSplat360在DL3DV-10K数据集上取得了显著的性能提升，超越了现有最先进的方法。该模型能够仅使用5个稀疏视角生成高质量的360度场景，在视觉质量和时间一致性方面均表现出色。在RealEstate10K数据集上的实验也验证了MVSplat360的有效性。（具体性能数据未知）

🎯 应用场景

MVSplat360技术可应用于虚拟现实（VR）、增强现实（AR）、机器人导航、自动驾驶等领域。例如，在VR/AR中，用户可以通过少量图像快速生成逼真的360度场景，提升沉浸式体验。在机器人导航和自动驾驶中，该技术可以帮助机器人或车辆从有限的传感器数据中重建周围环境，实现更安全、更可靠的导航。

📄 摘要（原文）

We introduce MVSplat360, a feed-forward approach for 360° novel view synthesis (NVS) of diverse real-world scenes, using only sparse observations. This setting is inherently ill-posed due to minimal overlap among input views and insufficient visual information provided, making it challenging for conventional methods to achieve high-quality results. Our MVSplat360 addresses this by effectively combining geometry-aware 3D reconstruction with temporally consistent video generation. Specifically, it refactors a feed-forward 3D Gaussian Splatting (3DGS) model to render features directly into the latent space of a pre-trained Stable Video Diffusion (SVD) model, where these features then act as pose and visual cues to guide the denoising process and produce photorealistic 3D-consistent views. Our model is end-to-end trainable and supports rendering arbitrary views with as few as 5 sparse input views. To evaluate MVSplat360's performance, we introduce a new benchmark using the challenging DL3DV-10K dataset, where MVSplat360 achieves superior visual quality compared to state-of-the-art methods on wide-sweeping or even 360° NVS tasks. Experiments on the existing benchmark RealEstate10K also confirm the effectiveness of our model. The video results are available on our project page: https://donydchen.github.io/mvsplat360.

MVSplat360: Feed-Forward 360 Scene Synthesis from Sparse Views

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理