G3Splat: Geometrically Consistent Generalizable Gaussian Splatting
作者: Mehdi Hosseinzadeh, Shin-Fang Chng, Yi Xu, Simon Lucey, Ian Reid, Ravi Garg
分类: cs.CV
发布日期: 2025-12-19
备注: Project page: https://m80hz.github.io/g3splat/
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
提出G3Splat以解决3D高斯点云几何一致性问题
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 3D高斯点云 几何一致性 自监督学习 新视角合成 姿态估计 计算机视觉 场景重建
📋 核心要点
- 现有方法在自监督学习中,主要依赖视图合成损失,导致几何一致性不足,难以恢复有意义的3D高斯点云。
- G3Splat通过引入几何先验,解决了3D高斯点云学习中的模糊性问题,实现了姿态无关的可泛化点云表示。
- 在RE10K数据集上,G3Splat在几何一致重建、相对姿态估计和新视角合成方面均达到了最先进的性能,并在ScanNet上实现了显著的零-shot泛化。
📝 摘要(中文)
3D高斯点云作为一种有效的场景表示方法,近年来在实时点云渲染和新视角合成中得到了广泛应用。然而,现有方法主要依赖视图合成监督,导致几何信息恢复不足。本文提出G3Splat,通过引入几何先验,解决了自监督学习中3D高斯点云的模糊性问题。经过在RE10K数据集上的训练,G3Splat在几何一致重建、相对姿态估计和新视角合成方面均取得了最先进的性能,并在ScanNet数据集上展示了强大的零-shot泛化能力,显著超越了之前的工作。
🔬 方法详解
问题定义:本文旨在解决在自监督学习中,3D高斯点云的几何一致性不足的问题。现有方法主要依赖视图合成损失,导致无法有效恢复有意义的几何信息。
核心思路:G3Splat的核心思想是引入几何先验,以增强3D高斯点云的几何一致性,从而实现姿态无关的可泛化表示。这种设计旨在克服现有方法的模糊性和不确定性。
技术框架:G3Splat的整体架构包括数据预处理、几何先验引入、网络训练和后处理等主要模块。通过这些模块的协同工作,模型能够有效地学习到几何一致的3D场景表示。
关键创新:G3Splat的主要创新在于引入几何先验来指导3D高斯点云的学习,这与传统方法仅依赖视图合成损失的方式有本质区别。
关键设计:在模型设计中,G3Splat采用了特定的损失函数来平衡几何一致性和视觉质量,同时在网络结构上进行了优化,以提高对高斯参数(如方向、尺度、透明度和外观)的预测能力。通过这些设计,模型在多个任务上表现出色。
🖼️ 关键图片
📊 实验亮点
G3Splat在RE10K数据集上实现了几何一致重建、相对姿态估计和新视角合成的最先进性能,具体表现为在几何恢复和姿态估计方面显著超越了之前的工作。此外,该方法在ScanNet数据集上展示了强大的零-shot泛化能力,进一步验证了其有效性。
🎯 应用场景
G3Splat的研究成果在计算机视觉、机器人导航和增强现实等领域具有广泛的应用潜力。通过提供几何一致的3D场景表示,该方法能够提升虚拟现实中的场景重建和交互体验,同时在自动驾驶和机器人定位中也能发挥重要作用。未来,该技术可能会推动更高效的3D场景理解和生成方法的发展。
📄 摘要(原文)
3D Gaussians have recently emerged as an effective scene representation for real-time splatting and accurate novel-view synthesis, motivating several works to adapt multi-view structure prediction networks to regress per-pixel 3D Gaussians from images. However, most prior work extends these networks to predict additional Gaussian parameters -- orientation, scale, opacity, and appearance -- while relying almost exclusively on view-synthesis supervision. We show that a view-synthesis loss alone is insufficient to recover geometrically meaningful splats in this setting. We analyze and address the ambiguities of learning 3D Gaussian splats under self-supervision for pose-free generalizable splatting, and introduce G3Splat, which enforces geometric priors to obtain geometrically consistent 3D scene representations. Trained on RE10K, our approach achieves state-of-the-art performance in (i) geometrically consistent reconstruction, (ii) relative pose estimation, and (iii) novel-view synthesis. We further demonstrate strong zero-shot generalization on ScanNet, substantially outperforming prior work in both geometry recovery and relative pose estimation. Code and pretrained models are released on our project page (https://m80hz.github.io/g3splat/).