SplatPose: Geometry-Aware 6-DoF Pose Estimation from Single RGB Image via 3D Gaussian Splatting
作者: Linqi Yang, Xiongwei Zhao, Qihao Sun, Ke Wang, Ao Chen, Peng Kang
分类: cs.CV, cs.RO
发布日期: 2025-03-07
备注: Submitted to IROS 2025
💡 一句话要点
SplatPose:利用3D高斯溅射实现单RGB图像的几何感知6自由度位姿估计
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 6自由度位姿估计 3D高斯溅射 单RGB图像 几何感知 双注意力机制 可微渲染 位姿优化
📋 核心要点
- 现有基于单RGB图像的6自由度位姿估计方法,易受初始位姿估计影响,且存在旋转模糊问题,精度受限。
- SplatPose通过结合3D高斯溅射和双分支神经架构,利用几何域注意力机制解耦位置和角度对齐,缓解旋转模糊。
- 实验表明,SplatPose在单RGB图像下实现了最先进的6自由度位姿估计精度,媲美依赖深度或多视图的方法。
📝 摘要(中文)
本文提出SplatPose,一个新颖的框架,它将3D高斯溅射(3DGS)与双分支神经架构相结合,仅使用单张RGB图像即可实现高精度位姿估计。核心在于双注意力光线评分网络(DARS-Net),它通过几何域注意力机制创新性地解耦了位置和角度对齐,显式地建模方向依赖性以减轻旋转模糊。此外,粗到精的优化流程通过对齐查询图像和3DGS合成视图之间的密集2D特征来逐步细化位姿估计,有效地校正了来自稀疏光线采样的特征错位和深度误差。在三个基准数据集上的实验表明,SplatPose在单RGB设置下实现了最先进的6自由度位姿估计精度,可与依赖深度或多视图图像的方法相媲美。
🔬 方法详解
问题定义:论文旨在解决单RGB图像下的精确6自由度位姿估计问题。现有方法要么依赖深度信息或多视角图像,增加了部署成本;要么在单RGB图像下精度不足,容易受到初始位姿估计的影响,并且存在旋转模糊的问题。
核心思路:论文的核心思路是将3D高斯溅射(3DGS)与神经网络相结合,利用3DGS强大的场景表示能力和可微渲染特性,以及神经网络的学习能力,从而实现精确的位姿估计。通过解耦位置和角度的对齐,显式建模方向依赖性,来减轻旋转模糊。
技术框架:SplatPose框架主要包含两个部分:首先,使用3DGS表示场景;然后,利用双分支神经架构进行位姿估计。该架构包含一个双注意力光线评分网络(DARS-Net),用于生成位姿估计,并采用粗到精的优化流程,通过对齐查询图像和3DGS合成视图之间的密集2D特征来逐步细化位姿估计。
关键创新:论文的关键创新在于DARS-Net,它通过几何域注意力机制解耦了位置和角度对齐,显式地建模方向依赖性,从而有效地缓解了旋转模糊。此外,粗到精的优化流程利用3DGS的可微渲染特性,通过对齐2D特征来优化位姿,克服了稀疏光线采样带来的误差。
关键设计:DARS-Net包含两个分支,分别处理位置和角度信息。几何域注意力机制通过学习不同方向上的权重,来建模方向依赖性。粗到精的优化流程采用迭代的方式,逐步减小位姿误差。损失函数包括光度损失和几何损失,用于约束合成图像与查询图像的一致性。
🖼️ 关键图片
📊 实验亮点
SplatPose在三个基准数据集上取得了state-of-the-art的6自由度位姿估计精度。在单RGB图像设置下,SplatPose的性能与依赖深度或多视图图像的方法相当甚至更好。实验结果表明,DARS-Net和粗到精的优化流程能够有效地提高位姿估计的精度,并缓解旋转模糊问题。
🎯 应用场景
SplatPose在增强现实、机器人导航、自动驾驶等领域具有广泛的应用前景。高精度的位姿估计是这些应用的基础,SplatPose能够在单RGB图像下实现高精度位姿估计,降低了对硬件的要求,使得这些应用能够更广泛地部署。未来,该技术可以进一步扩展到动态场景和复杂光照条件下。
📄 摘要(原文)
6-DoF pose estimation is a fundamental task in computer vision with wide-ranging applications in augmented reality and robotics. Existing single RGB-based methods often compromise accuracy due to their reliance on initial pose estimates and susceptibility to rotational ambiguity, while approaches requiring depth sensors or multi-view setups incur significant deployment costs. To address these limitations, we introduce SplatPose, a novel framework that synergizes 3D Gaussian Splatting (3DGS) with a dual-branch neural architecture to achieve high-precision pose estimation using only a single RGB image. Central to our approach is the Dual-Attention Ray Scoring Network (DARS-Net), which innovatively decouples positional and angular alignment through geometry-domain attention mechanisms, explicitly modeling directional dependencies to mitigate rotational ambiguity. Additionally, a coarse-to-fine optimization pipeline progressively refines pose estimates by aligning dense 2D features between query images and 3DGS-synthesized views, effectively correcting feature misalignment and depth errors from sparse ray sampling. Experiments on three benchmark datasets demonstrate that SplatPose achieves state-of-the-art 6-DoF pose estimation accuracy in single RGB settings, rivaling approaches that depend on depth or multi-view images.