SplatPose: Geometry-Aware 6-DoF Pose Estimation from Single RGB Image via 3D Gaussian Splatting

📄 arXiv: 2503.05174v1 📥 PDF

作者: Linqi Yang, Xiongwei Zhao, Qihao Sun, Ke Wang, Ao Chen, Peng Kang

分类: cs.CV, cs.RO

发布日期: 2025-03-07

备注: Submitted to IROS 2025


💡 一句话要点

SplatPose:利用3D高斯溅射实现单RGB图像的几何感知6自由度位姿估计

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 6自由度位姿估计 3D高斯溅射 单RGB图像 几何感知 双注意力机制 可微渲染 位姿优化

📋 核心要点

  1. 现有基于单RGB图像的6自由度位姿估计方法,易受初始位姿估计影响,且存在旋转模糊问题,精度受限。
  2. SplatPose通过结合3D高斯溅射和双分支神经架构,利用几何域注意力机制解耦位置和角度对齐,缓解旋转模糊。
  3. 实验表明,SplatPose在单RGB图像下实现了最先进的6自由度位姿估计精度,媲美依赖深度或多视图的方法。

📝 摘要(中文)

本文提出SplatPose,一个新颖的框架,它将3D高斯溅射(3DGS)与双分支神经架构相结合,仅使用单张RGB图像即可实现高精度位姿估计。核心在于双注意力光线评分网络(DARS-Net),它通过几何域注意力机制创新性地解耦了位置和角度对齐,显式地建模方向依赖性以减轻旋转模糊。此外,粗到精的优化流程通过对齐查询图像和3DGS合成视图之间的密集2D特征来逐步细化位姿估计,有效地校正了来自稀疏光线采样的特征错位和深度误差。在三个基准数据集上的实验表明,SplatPose在单RGB设置下实现了最先进的6自由度位姿估计精度,可与依赖深度或多视图图像的方法相媲美。

🔬 方法详解

问题定义:论文旨在解决单RGB图像下的精确6自由度位姿估计问题。现有方法要么依赖深度信息或多视角图像,增加了部署成本;要么在单RGB图像下精度不足,容易受到初始位姿估计的影响,并且存在旋转模糊的问题。

核心思路:论文的核心思路是将3D高斯溅射(3DGS)与神经网络相结合,利用3DGS强大的场景表示能力和可微渲染特性,以及神经网络的学习能力,从而实现精确的位姿估计。通过解耦位置和角度的对齐,显式建模方向依赖性,来减轻旋转模糊。

技术框架:SplatPose框架主要包含两个部分:首先,使用3DGS表示场景;然后,利用双分支神经架构进行位姿估计。该架构包含一个双注意力光线评分网络(DARS-Net),用于生成位姿估计,并采用粗到精的优化流程,通过对齐查询图像和3DGS合成视图之间的密集2D特征来逐步细化位姿估计。

关键创新:论文的关键创新在于DARS-Net,它通过几何域注意力机制解耦了位置和角度对齐,显式地建模方向依赖性,从而有效地缓解了旋转模糊。此外,粗到精的优化流程利用3DGS的可微渲染特性,通过对齐2D特征来优化位姿,克服了稀疏光线采样带来的误差。

关键设计:DARS-Net包含两个分支,分别处理位置和角度信息。几何域注意力机制通过学习不同方向上的权重,来建模方向依赖性。粗到精的优化流程采用迭代的方式,逐步减小位姿误差。损失函数包括光度损失和几何损失,用于约束合成图像与查询图像的一致性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SplatPose在三个基准数据集上取得了state-of-the-art的6自由度位姿估计精度。在单RGB图像设置下,SplatPose的性能与依赖深度或多视图图像的方法相当甚至更好。实验结果表明,DARS-Net和粗到精的优化流程能够有效地提高位姿估计的精度,并缓解旋转模糊问题。

🎯 应用场景

SplatPose在增强现实、机器人导航、自动驾驶等领域具有广泛的应用前景。高精度的位姿估计是这些应用的基础,SplatPose能够在单RGB图像下实现高精度位姿估计,降低了对硬件的要求,使得这些应用能够更广泛地部署。未来,该技术可以进一步扩展到动态场景和复杂光照条件下。

📄 摘要(原文)

6-DoF pose estimation is a fundamental task in computer vision with wide-ranging applications in augmented reality and robotics. Existing single RGB-based methods often compromise accuracy due to their reliance on initial pose estimates and susceptibility to rotational ambiguity, while approaches requiring depth sensors or multi-view setups incur significant deployment costs. To address these limitations, we introduce SplatPose, a novel framework that synergizes 3D Gaussian Splatting (3DGS) with a dual-branch neural architecture to achieve high-precision pose estimation using only a single RGB image. Central to our approach is the Dual-Attention Ray Scoring Network (DARS-Net), which innovatively decouples positional and angular alignment through geometry-domain attention mechanisms, explicitly modeling directional dependencies to mitigate rotational ambiguity. Additionally, a coarse-to-fine optimization pipeline progressively refines pose estimates by aligning dense 2D features between query images and 3DGS-synthesized views, effectively correcting feature misalignment and depth errors from sparse ray sampling. Experiments on three benchmark datasets demonstrate that SplatPose achieves state-of-the-art 6-DoF pose estimation accuracy in single RGB settings, rivaling approaches that depend on depth or multi-view images.