SPFSplatV2: Efficient Self-Supervised Pose-Free 3D Gaussian Splatting from Sparse Views
作者: Ranran Huang, Krystian Mikolajczyk
分类: cs.CV
发布日期: 2025-09-21
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
SPFSplatV2:基于稀疏视角的自监督无姿态3D高斯溅射
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 3D高斯溅射 新视角合成 自监督学习 无姿态估计 稀疏视角重建
📋 核心要点
- 现有方法依赖于精确的相机姿态,限制了其在缺乏姿态信息的场景中的应用。
- SPFSplatV2通过共享特征提取网络,同时预测3D高斯基元和相机姿态,实现自监督学习。
- 实验表明,该方法在无姿态监督下,新视角合成性能优于依赖几何监督的现有方法。
📝 摘要(中文)
我们提出了SPFSplatV2,一个高效的前馈框架,用于从稀疏多视角图像进行3D高斯溅射,训练和推理过程中无需真实姿态。它采用共享特征提取骨干网络,能够从无姿态输入中同时预测规范空间中的3D高斯基元和相机姿态。引入了掩码注意力机制,以在训练期间有效估计目标姿态,而重投影损失则强制执行像素对齐的高斯基元,从而提供更强的几何约束。我们进一步证明了我们的训练框架与不同重建架构的兼容性,从而产生了两个模型变体。值得注意的是,尽管缺乏姿态监督,我们的方法在领域内和领域外的新视角合成方面都实现了最先进的性能,即使在极端的视点变化和有限的图像重叠下也是如此,并且超过了最近依赖于几何监督进行相对姿态估计的方法。通过消除对真实姿态的依赖,我们的方法提供了可扩展性,可以利用更大和更多样化的数据集。
🔬 方法详解
问题定义:现有3D高斯溅射方法通常依赖于精确的相机姿态信息进行训练和渲染,这限制了它们在缺乏精确姿态信息的场景中的应用。此外,获取精确的相机姿态通常需要额外的传感器或复杂的标定过程,增加了数据采集的成本和难度。因此,如何在没有真实姿态信息的情况下,仅从稀疏的多视角图像中高效地重建高质量的3D场景是一个重要的挑战。
核心思路:SPFSplatV2的核心思路是利用自监督学习的方式,通过共享的特征提取网络同时预测3D高斯基元和相机姿态。该方法将3D场景表示为一组高斯基元,并通过重投影损失来约束高斯基元与输入图像之间的像素对齐关系。通过这种方式,模型可以在没有真实姿态信息的情况下,学习到场景的几何结构和相机姿态。
技术框架:SPFSplatV2的整体框架包括一个共享的特征提取骨干网络、一个3D高斯基元预测模块和一个相机姿态预测模块。首先,特征提取网络从输入的多视角图像中提取特征。然后,3D高斯基元预测模块根据提取的特征预测每个高斯基元的位置、大小和颜色等参数。同时,相机姿态预测模块预测每个视角的相机姿态。最后,通过重投影损失来约束预测的3D高斯基元与输入图像之间的像素对齐关系,从而实现自监督学习。
关键创新:SPFSplatV2的关键创新在于它能够在没有真实姿态信息的情况下,仅从稀疏的多视角图像中重建高质量的3D场景。与现有方法相比,SPFSplatV2不需要额外的传感器或复杂的标定过程,降低了数据采集的成本和难度。此外,SPFSplatV2还引入了掩码注意力机制,以在训练期间有效估计目标姿态,并证明了其训练框架与不同重建架构的兼容性。
关键设计:SPFSplatV2的关键设计包括:1) 共享的特征提取骨干网络,用于提取多视角图像的特征;2) 掩码注意力机制,用于有效估计目标姿态;3) 重投影损失,用于约束预测的3D高斯基元与输入图像之间的像素对齐关系。此外,论文还探索了不同的重建架构,并证明了其训练框架的兼容性。具体的损失函数包括光度损失和正则化项,用于优化高斯参数和相机姿态。
🖼️ 关键图片
📊 实验亮点
SPFSplatV2在领域内和领域外的新视角合成方面都取得了最先进的性能,即使在极端的视点变化和有限的图像重叠下也是如此。该方法在没有姿态监督的情况下,超过了最近依赖于几何监督进行相对姿态估计的方法。实验结果表明,SPFSplatV2能够有效地从稀疏的多视角图像中重建高质量的3D场景。
🎯 应用场景
SPFSplatV2在机器人导航、自动驾驶、虚拟现实和增强现实等领域具有广泛的应用前景。它可以用于在未知环境中进行3D场景重建和导航,也可以用于生成逼真的虚拟场景和增强现实体验。此外,该方法还可以应用于文物保护和数字化,通过从稀疏的图像中重建文物的3D模型,实现文物的数字化保存和展示。
📄 摘要(原文)
We introduce SPFSplatV2, an efficient feed-forward framework for 3D Gaussian splatting from sparse multi-view images, requiring no ground-truth poses during training and inference. It employs a shared feature extraction backbone, enabling simultaneous prediction of 3D Gaussian primitives and camera poses in a canonical space from unposed inputs. A masked attention mechanism is introduced to efficiently estimate target poses during training, while a reprojection loss enforces pixel-aligned Gaussian primitives, providing stronger geometric constraints. We further demonstrate the compatibility of our training framework with different reconstruction architectures, resulting in two model variants. Remarkably, despite the absence of pose supervision, our method achieves state-of-the-art performance in both in-domain and out-of-domain novel view synthesis, even under extreme viewpoint changes and limited image overlap, and surpasses recent methods that rely on geometric supervision for relative pose estimation. By eliminating dependence on ground-truth poses, our method offers the scalability to leverage larger and more diverse datasets. Code and pretrained models will be available on our project page: https://ranrhuang.github.io/spfsplatv2/.