MVSGaussian: Fast Generalizable Gaussian Splatting Reconstruction from Multi-View Stereo

📄 arXiv: 2405.12218v3 📥 PDF

作者: Tianqi Liu, Guangcong Wang, Shoukang Hu, Liao Shen, Xinyi Ye, Yuhang Zang, Zhiguo Cao, Wei Li, Ziwei Liu

分类: cs.CV

发布日期: 2024-05-20 (更新: 2024-07-15)

备注: ECCV2024, Project page: https://mvsgaussian.github.io/ , Code: https://github.com/TQTQliu/MVSGaussian


💡 一句话要点

MVSGaussian:基于多视图立体重建的快速可泛化高斯溅射方法

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 多视图立体 高斯溅射 神经渲染 三维重建 可泛化性 实时渲染 新视角合成

📋 核心要点

  1. 现有可泛化 NeRF 方法微调耗时,渲染速度慢,难以满足实时应用需求。
  2. MVSGaussian 利用多视图立体信息编码几何感知的 Gaussian 表示,并提出混合渲染策略。
  3. 实验表明,MVSGaussian 在多个数据集上实现了优于现有方法的可泛化性能和实时渲染速度。

📝 摘要(中文)

MVSGaussian 是一种新的可泛化 3D 高斯表示方法,它源于多视图立体 (MVS),可以有效地重建未见过的场景。具体来说,1) 我们利用 MVS 来编码几何感知的 Gaussian 表示,并将其解码为 Gaussian 参数。2) 为了进一步提高性能,我们提出了一种混合 Gaussian 渲染,它集成了高效的体渲染设计,用于新视角合成。3) 为了支持对特定场景的快速微调,我们引入了一种多视图几何一致性聚合策略,以有效地聚合由可泛化模型生成的点云,作为每个场景优化的初始化。与之前基于 NeRF 的可泛化方法相比,MVSGaussian 实现了实时渲染,并且每个场景都具有更好的合成质量,而之前的 NeRF 方法通常需要几分钟的微调和每张图像几秒钟的渲染时间。与原始 3D-GS 相比,MVSGaussian 以更少的训练计算成本实现了更好的视图合成。在 DTU、Real Forward-facing、NeRF Synthetic 和 Tanks and Temples 数据集上的大量实验验证了 MVSGaussian 实现了最先进的性能,具有令人信服的泛化能力、实时渲染速度和快速的单场景优化。

🔬 方法详解

问题定义:论文旨在解决从多视图图像中快速且可泛化地重建 3D 场景的问题。现有基于 NeRF 的可泛化方法通常需要大量的微调时间,并且渲染速度较慢,难以满足实时应用的需求。此外,直接使用 3D 高斯溅射(3D-GS)进行场景重建,训练成本较高。

核心思路:论文的核心思路是利用多视图立体(MVS)的几何先验信息来指导高斯参数的初始化,从而加速训练过程并提高泛化能力。通过将 MVS 的输出作为高斯参数的编码,可以有效地利用几何信息,减少对大量训练数据的依赖。同时,结合混合渲染策略,进一步提升渲染质量和效率。

技术框架:MVSGaussian 的整体框架包括以下几个主要模块:1) 基于 MVS 的几何感知高斯表示编码器:该模块利用 MVS 方法从多视图图像中提取几何信息,并将其编码为高斯参数。2) 高斯参数解码器:将编码后的几何信息解码为高斯分布的参数,包括位置、协方差和颜色等。3) 混合高斯渲染器:结合了高效的体渲染设计,用于新视角的图像合成。4) 多视图几何一致性聚合策略:用于快速微调,将可泛化模型生成的点云进行聚合,作为单场景优化的初始化。

关键创新:论文的关键创新在于将多视图立体视觉与 3D 高斯溅射相结合,利用 MVS 的几何先验信息来指导高斯参数的初始化。这种方法不仅提高了训练效率,还增强了模型的泛化能力。此外,混合高斯渲染器的设计也提高了渲染速度和质量。

关键设计:论文的关键设计包括:1) 使用 MVS 网络(具体网络结构未明确说明,但应为现有的 MVS 方法)提取深度信息和置信度,并将其转化为高斯参数。2) 混合渲染器结合了 alpha blending 和 volume rendering,以平衡渲染质量和速度。3) 多视图几何一致性聚合策略,通过最小化点云之间的距离和法向量差异,实现点云的有效聚合。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MVSGaussian 在 DTU、Real Forward-facing、NeRF Synthetic 和 Tanks and Temples 数据集上取得了最先进的性能。与基于 NeRF 的可泛化方法相比,MVSGaussian 实现了实时渲染,并且每个场景都具有更好的合成质量。与原始 3D-GS 相比,MVSGaussian 以更少的训练计算成本实现了更好的视图合成。

🎯 应用场景

MVSGaussian 在机器人导航、自动驾驶、虚拟现实和增强现实等领域具有广泛的应用前景。它可以用于快速构建环境地图,实现实时场景重建和新视角合成,为用户提供更逼真的交互体验。此外,该方法还可以应用于文物保护、城市建模等领域,实现对复杂场景的高精度重建。

📄 摘要(原文)

We present MVSGaussian, a new generalizable 3D Gaussian representation approach derived from Multi-View Stereo (MVS) that can efficiently reconstruct unseen scenes. Specifically, 1) we leverage MVS to encode geometry-aware Gaussian representations and decode them into Gaussian parameters. 2) To further enhance performance, we propose a hybrid Gaussian rendering that integrates an efficient volume rendering design for novel view synthesis. 3) To support fast fine-tuning for specific scenes, we introduce a multi-view geometric consistent aggregation strategy to effectively aggregate the point clouds generated by the generalizable model, serving as the initialization for per-scene optimization. Compared with previous generalizable NeRF-based methods, which typically require minutes of fine-tuning and seconds of rendering per image, MVSGaussian achieves real-time rendering with better synthesis quality for each scene. Compared with the vanilla 3D-GS, MVSGaussian achieves better view synthesis with less training computational cost. Extensive experiments on DTU, Real Forward-facing, NeRF Synthetic, and Tanks and Temples datasets validate that MVSGaussian attains state-of-the-art performance with convincing generalizability, real-time rendering speed, and fast per-scene optimization.