G3Splat: Geometrically Consistent Generalizable Gaussian Splatting

作者: Mehdi Hosseinzadeh, Shin-Fang Chng, Yi Xu, Simon Lucey, Ian Reid, Ravi Garg

分类: cs.CV

发布日期: 2025-12-19

备注: Project page: https://m80hz.github.io/g3splat/

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

提出G3Splat以解决3D高斯点云几何一致性问题

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 3D高斯点云 几何一致性 自监督学习 新视角合成 姿态估计 计算机视觉 场景重建

📋 核心要点

现有方法在自监督学习中，主要依赖视图合成损失，导致几何一致性不足，难以恢复有意义的3D高斯点云。
G3Splat通过引入几何先验，解决了3D高斯点云学习中的模糊性问题，实现了姿态无关的可泛化点云表示。
在RE10K数据集上，G3Splat在几何一致重建、相对姿态估计和新视角合成方面均达到了最先进的性能，并在ScanNet上实现了显著的零-shot泛化。

📝 摘要（中文）

3D高斯点云作为一种有效的场景表示方法，近年来在实时点云渲染和新视角合成中得到了广泛应用。然而，现有方法主要依赖视图合成监督，导致几何信息恢复不足。本文提出G3Splat，通过引入几何先验，解决了自监督学习中3D高斯点云的模糊性问题。经过在RE10K数据集上的训练，G3Splat在几何一致重建、相对姿态估计和新视角合成方面均取得了最先进的性能，并在ScanNet数据集上展示了强大的零-shot泛化能力，显著超越了之前的工作。

🔬 方法详解

问题定义：本文旨在解决在自监督学习中，3D高斯点云的几何一致性不足的问题。现有方法主要依赖视图合成损失，导致无法有效恢复有意义的几何信息。

核心思路：G3Splat的核心思想是引入几何先验，以增强3D高斯点云的几何一致性，从而实现姿态无关的可泛化表示。这种设计旨在克服现有方法的模糊性和不确定性。

技术框架：G3Splat的整体架构包括数据预处理、几何先验引入、网络训练和后处理等主要模块。通过这些模块的协同工作，模型能够有效地学习到几何一致的3D场景表示。

关键创新：G3Splat的主要创新在于引入几何先验来指导3D高斯点云的学习，这与传统方法仅依赖视图合成损失的方式有本质区别。

关键设计：在模型设计中，G3Splat采用了特定的损失函数来平衡几何一致性和视觉质量，同时在网络结构上进行了优化，以提高对高斯参数（如方向、尺度、透明度和外观）的预测能力。通过这些设计，模型在多个任务上表现出色。

🖼️ 关键图片

📊 实验亮点

G3Splat在RE10K数据集上实现了几何一致重建、相对姿态估计和新视角合成的最先进性能，具体表现为在几何恢复和姿态估计方面显著超越了之前的工作。此外，该方法在ScanNet数据集上展示了强大的零-shot泛化能力，进一步验证了其有效性。

🎯 应用场景

G3Splat的研究成果在计算机视觉、机器人导航和增强现实等领域具有广泛的应用潜力。通过提供几何一致的3D场景表示，该方法能够提升虚拟现实中的场景重建和交互体验，同时在自动驾驶和机器人定位中也能发挥重要作用。未来，该技术可能会推动更高效的3D场景理解和生成方法的发展。

📄 摘要（原文）

3D Gaussians have recently emerged as an effective scene representation for real-time splatting and accurate novel-view synthesis, motivating several works to adapt multi-view structure prediction networks to regress per-pixel 3D Gaussians from images. However, most prior work extends these networks to predict additional Gaussian parameters -- orientation, scale, opacity, and appearance -- while relying almost exclusively on view-synthesis supervision. We show that a view-synthesis loss alone is insufficient to recover geometrically meaningful splats in this setting. We analyze and address the ambiguities of learning 3D Gaussian splats under self-supervision for pose-free generalizable splatting, and introduce G3Splat, which enforces geometric priors to obtain geometrically consistent 3D scene representations. Trained on RE10K, our approach achieves state-of-the-art performance in (i) geometrically consistent reconstruction, (ii) relative pose estimation, and (iii) novel-view synthesis. We further demonstrate strong zero-shot generalization on ScanNet, substantially outperforming prior work in both geometry recovery and relative pose estimation. Code and pretrained models are released on our project page (https://m80hz.github.io/g3splat/).

G3Splat: Geometrically Consistent Generalizable Gaussian Splatting

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理