DepthSplat: Connecting Gaussian Splatting and Depth
作者: Haofei Xu, Songyou Peng, Fangjinhua Wang, Hermann Blum, Daniel Barath, Andreas Geiger, Marc Pollefeys
分类: cs.CV
发布日期: 2024-10-17 (更新: 2025-03-25)
备注: CVPR 2025, Project page: https://haofeixu.github.io/depthsplat/, Code: https://github.com/cvg/depthsplat
💡 一句话要点
DepthSplat:连接高斯溅射与深度估计,实现高质量三维重建与深度预测。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 高斯溅射 深度估计 三维重建 新视角合成 多视图几何 无监督学习 场景理解
📋 核心要点
- 现有方法通常孤立地研究高斯溅射和单视图深度估计,忽略了它们之间的潜在联系和互补性。
- DepthSplat的核心思想是利用深度信息增强高斯溅射的重建质量,同时利用高斯溅射作为深度估计的无监督预训练目标。
- 实验结果表明,DepthSplat在多个数据集上实现了最先进的深度估计和新视角合成性能,并显著提升了重建速度。
📝 摘要(中文)
本文提出了DepthSplat,旨在连接高斯溅射和单视图深度估计,并研究它们之间的相互作用。首先,我们利用预训练的单目深度特征,构建了一个鲁棒的多视图深度模型,从而实现了高质量的前馈3D高斯溅射重建。其次,我们证明了高斯溅射可以作为一种无监督预训练目标,用于从大规模多视图姿态数据集中学习强大的深度模型。通过大量的消融实验和跨任务迁移实验,验证了高斯溅射和深度估计之间的协同作用。在ScanNet、RealEstate10K和DL3DV数据集上,DepthSplat在深度估计和新视角合成方面均取得了最先进的性能,证明了连接这两个任务的互惠互利。此外,DepthSplat能够在0.6秒内从12个输入视图(512x960分辨率)进行前馈重建。
🔬 方法详解
问题定义:现有方法通常将高斯溅射(Gaussian Splatting)和单视图深度估计作为独立任务进行研究,缺乏对二者之间潜在联系的探索。高斯溅射在稀疏视图下重建质量不高,而深度估计缺乏有效的监督信号。
核心思路:DepthSplat的核心思路是建立高斯溅射和深度估计之间的桥梁,利用深度信息来指导高斯溅射的重建过程,同时利用高斯溅射的重建结果作为深度估计的无监督预训练目标。这种相互促进的方式可以提升两个任务的性能。
技术框架:DepthSplat包含两个主要组成部分:基于多视图深度的高斯溅射重建和基于高斯溅射的深度估计预训练。首先,利用预训练的单目深度估计网络提取多视图深度特征,然后将其融合以指导高斯溅射的初始化和优化。其次,利用高斯溅射的渲染结果作为监督信号,对深度估计网络进行无监督预训练。
关键创新:DepthSplat的关键创新在于建立了高斯溅射和深度估计之间的双向连接。一方面,利用深度信息增强了高斯溅射的重建质量,尤其是在稀疏视图情况下。另一方面,利用高斯溅射作为深度估计的无监督预训练目标,避免了对大量标注数据的依赖。
关键设计:DepthSplat使用预训练的单目深度估计网络(例如DPT)提取深度特征。多视图深度特征融合采用可学习的注意力机制。高斯溅射的损失函数包括渲染损失、深度一致性损失等。深度估计网络的预训练损失包括渲染一致性损失和几何一致性损失。
🖼️ 关键图片
📊 实验亮点
DepthSplat在ScanNet、RealEstate10K和DL3DV数据集上取得了state-of-the-art的性能。例如,在ScanNet数据集上,DepthSplat在深度估计和新视角合成方面均优于现有方法。此外,DepthSplat实现了快速的前馈重建,仅需0.6秒即可从12个输入视图重建场景。
🎯 应用场景
DepthSplat在三维重建、虚拟现实、增强现实、机器人导航等领域具有广泛的应用前景。高质量的三维重建可以用于创建逼真的虚拟环境,而准确的深度估计可以用于机器人感知和场景理解。该方法可以应用于自动驾驶、室内导航、游戏开发等领域。
📄 摘要(原文)
Gaussian splatting and single-view depth estimation are typically studied in isolation. In this paper, we present DepthSplat to connect Gaussian splatting and depth estimation and study their interactions. More specifically, we first contribute a robust multi-view depth model by leveraging pre-trained monocular depth features, leading to high-quality feed-forward 3D Gaussian splatting reconstructions. We also show that Gaussian splatting can serve as an unsupervised pre-training objective for learning powerful depth models from large-scale multi-view posed datasets. We validate the synergy between Gaussian splatting and depth estimation through extensive ablation and cross-task transfer experiments. Our DepthSplat achieves state-of-the-art performance on ScanNet, RealEstate10K and DL3DV datasets in terms of both depth estimation and novel view synthesis, demonstrating the mutual benefits of connecting both tasks. In addition, DepthSplat enables feed-forward reconstruction from 12 input views (512x960 resolutions) in 0.6 seconds.