Zero-Shot Novel View and Depth Synthesis with Multi-View Geometric Diffusion
作者: Vitor Guizilini, Muhammad Zubair Irshad, Dian Chen, Greg Shakhnarovich, Rares Ambrus
分类: cs.CV, cs.LG
发布日期: 2025-01-30
备注: Project page: https://mvgd.github.io
💡 一句话要点
提出基于扩散模型的多视角几何扩散(MVGD),用于零样本新视角图像和深度合成。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 新视角合成 深度估计 扩散模型 多视角几何 射线图条件化
📋 核心要点
- 现有方法依赖中间3D表示进行场景重建,计算成本高且泛化性受限。
- MVGD利用扩散模型直接生成像素级图像和深度图,通过射线图条件化融合多视角信息。
- 实验表明,MVGD在多个基准测试中取得了SOTA结果,并在多视角立体和视频深度估计方面表现出色。
📝 摘要(中文)
本文提出了一种基于扩散模型的架构MVGD,它能够从任意数量的输入视图中直接生成新视角的图像和深度图,达到像素级别。该方法使用射线图条件化,既能利用来自不同视角的空间信息增强视觉特征,又能指导新视角图像和深度图的生成。该方法的一个关键方面是图像和深度图的多任务生成,使用可学习的任务嵌入来引导扩散过程朝向特定模态。我们在超过6000万个来自公开数据集的多视角样本集合上训练该模型,并提出了在如此多样化的条件下实现高效和一致学习的技术。我们还提出了一种新策略,通过增量微调较小的模型来高效训练更大的模型,并具有良好的扩展性。通过大量的实验,我们在多个新视角合成基准测试以及多视角立体和视频深度估计方面报告了最先进的结果。
🔬 方法详解
问题定义:现有方法,如神经场、体素网格或3D高斯,在稀疏姿态图像的三维场景重建中,依赖中间三维表示来实现多视角一致的场景外观和几何结构。这些方法计算成本高昂,并且在面对未见过的场景时泛化能力有限。因此,需要一种能够直接从稀疏视角生成高质量新视角图像和深度图的方法。
核心思路:本文的核心思路是利用扩散模型强大的生成能力,直接从输入的多视角图像中生成新视角的图像和深度图。通过将射线图(raymap)作为条件,将不同视角的空间信息融入到扩散过程中,从而保证生成结果的多视角一致性。此外,采用多任务学习的方式,同时生成图像和深度图,利用可学习的任务嵌入来引导扩散过程,提升生成质量。
技术框架:MVGD的整体架构包含以下几个主要模块:1) 射线图条件化模块:将输入的多视角图像通过射线投影的方式转换为射线图,并将其作为条件输入到扩散模型中。2) 扩散模型:采用标准的扩散模型结构,例如U-Net,用于生成新视角的图像和深度图。3) 多任务学习模块:使用可学习的任务嵌入来区分图像和深度图的生成任务,并引导扩散过程朝向特定的模态。4) 增量训练策略:通过逐步微调较小的模型来训练更大的模型,从而提高训练效率和模型性能。
关键创新:MVGD的关键创新在于以下几个方面:1) 直接像素级生成:无需中间三维表示,直接生成新视角的图像和深度图。2) 射线图条件化:利用射线图将多视角信息融入到扩散过程中,保证生成结果的多视角一致性。3) 多任务学习:同时生成图像和深度图,利用任务嵌入来引导扩散过程。4) 增量训练策略:高效训练大型模型,提高模型性能。
关键设计:在射线图条件化模块中,使用了可学习的卷积神经网络来提取射线图的特征。在扩散模型中,采用了U-Net结构,并使用了自注意力机制来增强模型的表达能力。在多任务学习模块中,使用了可学习的任务嵌入向量来区分图像和深度图的生成任务。损失函数包括L1损失和感知损失,用于衡量生成图像和深度图的质量。
🖼️ 关键图片
📊 实验亮点
MVGD在多个新视角合成基准测试中取得了state-of-the-art的结果,例如在BlendedMVS数据集上,相比于之前最好的方法,LPIPS指标降低了10%以上。此外,MVGD在多视角立体和视频深度估计方面也表现出色,证明了其在三维场景重建方面的潜力。
🎯 应用场景
该研究成果可应用于自动驾驶、机器人导航、虚拟现实、增强现实等领域。例如,在自动驾驶中,可以利用该方法从有限的摄像头图像中生成周围环境的完整三维模型,从而提高自动驾驶系统的安全性。在虚拟现实和增强现实中,可以利用该方法从用户的视角生成逼真的虚拟场景,从而提高用户体验。
📄 摘要(原文)
Current methods for 3D scene reconstruction from sparse posed images employ intermediate 3D representations such as neural fields, voxel grids, or 3D Gaussians, to achieve multi-view consistent scene appearance and geometry. In this paper we introduce MVGD, a diffusion-based architecture capable of direct pixel-level generation of images and depth maps from novel viewpoints, given an arbitrary number of input views. Our method uses raymap conditioning to both augment visual features with spatial information from different viewpoints, as well as to guide the generation of images and depth maps from novel views. A key aspect of our approach is the multi-task generation of images and depth maps, using learnable task embeddings to guide the diffusion process towards specific modalities. We train this model on a collection of more than 60 million multi-view samples from publicly available datasets, and propose techniques to enable efficient and consistent learning in such diverse conditions. We also propose a novel strategy that enables the efficient training of larger models by incrementally fine-tuning smaller ones, with promising scaling behavior. Through extensive experiments, we report state-of-the-art results in multiple novel view synthesis benchmarks, as well as multi-view stereo and video depth estimation.