G3Splat: Geometrically Consistent Generalizable Gaussian Splatting

作者: Mehdi Hosseinzadeh, Shin-Fang Chng, Yi Xu, Simon Lucey, Ian Reid, Ravi Garg

分类: cs.CV

发布日期: 2025-12-19

备注: Project page: https://m80hz.github.io/g3splat/

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

G3Splat：通过几何一致性先验实现可泛化的高斯溅射

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 高斯溅射 三维重建 新视角合成 几何一致性 可泛化 自监督学习 场景表示

📋 核心要点

现有方法依赖视角合成损失学习3D高斯溅射，难以保证几何一致性，导致重建质量下降。
G3Splat通过引入几何先验，显式地约束3D高斯溅射的学习过程，从而提升几何一致性。
实验表明，G3Splat在几何重建、相对姿态估计和新视角合成方面均优于现有方法，并具有良好的泛化能力。

📝 摘要（中文）

3D高斯溅射最近成为一种有效的场景表示方法，可用于实时溅射和精确的新视角合成，这促使一些工作调整多视角结构预测网络，以从图像中回归每个像素的3D高斯分布。然而，先前的大部分工作扩展这些网络以预测额外的高斯参数——方向、尺度、不透明度和外观——同时几乎完全依赖于视角合成监督。我们表明，仅视角合成损失不足以在这种设置下恢复几何上有意义的溅射。我们分析并解决了在无姿态可泛化溅射的自监督下学习3D高斯溅射的模糊性，并引入了G3Splat，它强制执行几何先验以获得几何一致的3D场景表示。在RE10K上训练后，我们的方法在（i）几何一致的重建，（ii）相对姿态估计和（iii）新视角合成方面实现了最先进的性能。我们进一步展示了在ScanNet上的强大零样本泛化能力，在几何恢复和相对姿态估计方面都大大优于先前的工作。代码和预训练模型已在我们的项目页面上发布。

🔬 方法详解

问题定义：现有基于3D高斯溅射的场景表示方法，在进行novel-view synthesis时，通常依赖于多视角图像进行训练，并使用view-synthesis loss作为主要的监督信号。然而，这种方法在学习高斯参数（如方向、尺度等）时存在模糊性，导致重建的3D场景在几何上不一致，影响了后续任务的性能，例如相对姿态估计。

核心思路：G3Splat的核心思路是通过引入几何先验，显式地约束3D高斯溅射的学习过程，从而解决几何不一致的问题。具体来说，论文通过设计特定的损失函数，鼓励学习到的高斯分布在空间中具有合理的几何形状，例如，相邻的高斯分布应该具有相似的朝向，避免出现不自然的扭曲。

技术框架：G3Splat的整体框架基于现有的多视角结构预测网络，并对其进行了扩展。该框架首先使用一个神经网络从多视角图像中预测每个像素的3D高斯参数，然后使用一个splatting渲染器将这些高斯分布渲染成图像。与现有方法不同的是，G3Splat在训练过程中引入了几何一致性损失，以约束学习到的高斯参数。该框架包含以下主要模块：图像特征提取模块、高斯参数预测模块、splatting渲染模块和几何一致性损失计算模块。

关键创新：G3Splat最重要的技术创新点在于引入了几何一致性损失，该损失能够有效地约束3D高斯溅射的学习过程，从而提高重建的3D场景的几何一致性。与现有方法相比，G3Splat不再仅仅依赖于view-synthesis loss，而是将几何先验融入到学习过程中，从而更好地利用了多视角图像中的几何信息。

关键设计：G3Splat的关键设计包括以下几个方面：1) 几何一致性损失的具体形式，例如，可以使用相邻高斯分布的朝向差异作为损失项；2) 几何一致性损失的权重，需要仔细调整以平衡view-synthesis loss和几何一致性损失之间的关系；3) 网络结构的细节，例如，可以使用更深的网络来提取更丰富的图像特征。

🖼️ 关键图片

📊 实验亮点

G3Splat在RE10K数据集上实现了state-of-the-art的性能，在几何一致性重建、相对姿态估计和新视角合成方面均优于现有方法。此外，G3Splat在ScanNet数据集上展示了强大的零样本泛化能力，在几何恢复和相对姿态估计方面都大大优于先前的工作。例如，在相对姿态估计任务中，G3Splat的性能比现有方法提升了超过10%。

🎯 应用场景

G3Splat在三维重建、新视角合成、机器人导航、增强现实等领域具有广泛的应用前景。它可以用于创建高质量的3D场景模型，从而为机器人提供更准确的环境感知能力，并为用户提供更逼真的虚拟现实体验。此外，G3Splat还可以用于生成任意视角的图像，从而为图像编辑和视频制作提供更大的灵活性。

📄 摘要（原文）

3D Gaussians have recently emerged as an effective scene representation for real-time splatting and accurate novel-view synthesis, motivating several works to adapt multi-view structure prediction networks to regress per-pixel 3D Gaussians from images. However, most prior work extends these networks to predict additional Gaussian parameters -- orientation, scale, opacity, and appearance -- while relying almost exclusively on view-synthesis supervision. We show that a view-synthesis loss alone is insufficient to recover geometrically meaningful splats in this setting. We analyze and address the ambiguities of learning 3D Gaussian splats under self-supervision for pose-free generalizable splatting, and introduce G3Splat, which enforces geometric priors to obtain geometrically consistent 3D scene representations. Trained on RE10K, our approach achieves state-of-the-art performance in (i) geometrically consistent reconstruction, (ii) relative pose estimation, and (iii) novel-view synthesis. We further demonstrate strong zero-shot generalization on ScanNet, substantially outperforming prior work in both geometry recovery and relative pose estimation. Code and pretrained models are released on our project page (https://m80hz.github.io/g3splat/).

G3Splat: Geometrically Consistent Generalizable Gaussian Splatting

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册