Splatt3R: Zero-shot Gaussian Splatting from Uncalibrated Image Pairs

作者: Brandon Smart, Chuanxia Zheng, Iro Laina, Victor Adrian Prisacariu

分类: cs.CV, cs.LG

发布日期: 2024-08-25 (更新: 2024-08-27)

备注: Our project page can be found at: https://splatt3r.active.vision/

💡 一句话要点

Splatt3R：基于未标定图像对的零样本高斯溅射方法

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 高斯溅射 新视角合成 三维重建 无姿态估计 立体视觉

📋 核心要点

现有新视角合成方法依赖精确相机参数或深度信息，限制了其在野外场景的应用。
Splatt3R通过扩展MASt3R，直接从立体图像对预测3D高斯溅射，无需相机参数或深度信息。
Splatt3R在ScanNet++上训练，泛化到未标定图像，能以4FPS重建场景并实时渲染。

📝 摘要（中文）

本文介绍了一种名为Splatt3R的无需姿态、前馈的方法，用于从立体图像对中进行野外场景的3D重建和新视角合成。给定未标定的自然图像，Splatt3R可以直接预测3D高斯溅射，而无需任何相机参数或深度信息。为了提高泛化能力，Splatt3R构建于“基础”3D几何重建方法MASt3R之上，并扩展了它以处理3D结构和外观。具体来说，与仅重建3D点云的原始MASt3R不同，我们预测了构造每个点的高斯图元所需的额外高斯属性。因此，与其他新视角合成方法不同，Splatt3R首先通过优化3D点云的几何损失进行训练，然后再进行新视角合成目标优化。通过这样做，我们避免了从立体视图训练3D高斯溅射时存在的局部最小值。我们还提出了一种新颖的损失掩蔽策略，经验表明该策略对于外推视点的强大性能至关重要。我们在ScanNet++数据集上训练Splatt3R，并展示了对未标定的野外图像的出色泛化能力。Splatt3R能够以512 x 512分辨率以4FPS的速度重建场景，并且生成的溅射可以实时渲染。

🔬 方法详解

问题定义：现有新视角合成方法通常需要已知的相机内外参数或深度信息，这在实际应用中是一个很大的限制，尤其是在处理野外场景的图像时。这些方法难以处理未标定的图像对，并且容易陷入局部最小值，导致重建质量下降。

核心思路：Splatt3R的核心思路是利用一个“基础”3D几何重建方法（MASt3R）作为起点，并对其进行扩展，使其能够同时处理3D结构和外观信息。通过预测每个点的高斯属性，而不是仅仅重建点云，Splatt3R能够直接生成可渲染的3D高斯溅射。这种方法避免了从头开始训练高斯溅射的困难，并提高了泛化能力。

技术框架：Splatt3R的整体框架包括以下几个主要阶段：1) 使用MASt3R进行初始3D几何重建；2) 预测每个点的额外高斯属性，以构建高斯图元；3) 通过优化3D点云的几何损失和新视角合成目标来训练网络；4) 使用损失掩蔽策略来提高外推视点的性能。整个流程是前馈的，可以在不需要相机参数的情况下直接从立体图像对生成3D模型。

关键创新：Splatt3R的关键创新在于其无需相机参数的3D高斯溅射重建方法。与传统方法相比，Splatt3R不需要任何相机标定信息或深度信息，可以直接从未标定的图像对中重建3D场景。此外，该方法还提出了一种新颖的损失掩蔽策略，可以显著提高外推视点的重建质量。

关键设计：Splatt3R的关键设计包括：1) 使用MASt3R作为基础几何重建模块；2) 预测高斯属性的网络结构，包括位置、尺度、旋转和颜色等；3) 几何损失和新视角合成损失的组合，用于优化网络参数；4) 损失掩蔽策略，用于抑制外推视点中的噪声和伪影。

🖼️ 关键图片

📊 实验亮点

Splatt3R在ScanNet++数据集上进行了训练，并展示了对未标定的野外图像的出色泛化能力。实验结果表明，Splatt3R能够以512 x 512分辨率以4FPS的速度重建场景，并且生成的溅射可以实时渲染。此外，该方法提出的损失掩蔽策略显著提高了外推视点的重建质量，使得Splatt3R在处理复杂场景时具有更强的鲁棒性。

🎯 应用场景

Splatt3R在机器人导航、增强现实、虚拟现实、自动驾驶等领域具有广泛的应用前景。它可以用于快速构建场景的3D模型，从而实现更精确的定位、导航和交互。此外，Splatt3R还可以用于生成高质量的新视角图像，从而提高用户在虚拟环境中的沉浸感。该技术有望推动三维视觉和人工智能的发展。

📄 摘要（原文）

In this paper, we introduce Splatt3R, a pose-free, feed-forward method for in-the-wild 3D reconstruction and novel view synthesis from stereo pairs. Given uncalibrated natural images, Splatt3R can predict 3D Gaussian Splats without requiring any camera parameters or depth information. For generalizability, we build Splatt3R upon a ``foundation'' 3D geometry reconstruction method, MASt3R, by extending it to deal with both 3D structure and appearance. Specifically, unlike the original MASt3R which reconstructs only 3D point clouds, we predict the additional Gaussian attributes required to construct a Gaussian primitive for each point. Hence, unlike other novel view synthesis methods, Splatt3R is first trained by optimizing the 3D point cloud's geometry loss, and then a novel view synthesis objective. By doing this, we avoid the local minima present in training 3D Gaussian Splats from stereo views. We also propose a novel loss masking strategy that we empirically find is critical for strong performance on extrapolated viewpoints. We train Splatt3R on the ScanNet++ dataset and demonstrate excellent generalisation to uncalibrated, in-the-wild images. Splatt3R can reconstruct scenes at 4FPS at 512 x 512 resolution, and the resultant splats can be rendered in real-time.

Splatt3R: Zero-shot Gaussian Splatting from Uncalibrated Image Pairs

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理