SplatPose: Geometry-Aware 6-DoF Pose Estimation from Single RGB Image via 3D Gaussian Splatting

作者: Linqi Yang, Xiongwei Zhao, Qihao Sun, Ke Wang, Ao Chen, Peng Kang

分类: cs.CV, cs.RO

发布日期: 2025-03-07

备注: Submitted to IROS 2025

💡 一句话要点

SplatPose：利用3D高斯溅射实现单RGB图像的几何感知6自由度位姿估计

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 6自由度位姿估计 3D高斯溅射 单RGB图像 几何感知 双注意力机制 可微渲染 位姿优化

📋 核心要点

现有基于单RGB图像的6自由度位姿估计方法，易受初始位姿估计影响，且存在旋转模糊问题，精度受限。
SplatPose通过结合3D高斯溅射和双分支神经架构，利用几何域注意力机制解耦位置和角度对齐，缓解旋转模糊。
实验表明，SplatPose在单RGB图像下实现了最先进的6自由度位姿估计精度，媲美依赖深度或多视图的方法。

📝 摘要（中文）

本文提出SplatPose，一个新颖的框架，它将3D高斯溅射(3DGS)与双分支神经架构相结合，仅使用单张RGB图像即可实现高精度位姿估计。核心在于双注意力光线评分网络(DARS-Net)，它通过几何域注意力机制创新性地解耦了位置和角度对齐，显式地建模方向依赖性以减轻旋转模糊。此外，粗到精的优化流程通过对齐查询图像和3DGS合成视图之间的密集2D特征来逐步细化位姿估计，有效地校正了来自稀疏光线采样的特征错位和深度误差。在三个基准数据集上的实验表明，SplatPose在单RGB设置下实现了最先进的6自由度位姿估计精度，可与依赖深度或多视图图像的方法相媲美。

🔬 方法详解

问题定义：论文旨在解决单RGB图像下的精确6自由度位姿估计问题。现有方法要么依赖深度信息或多视角图像，增加了部署成本；要么在单RGB图像下精度不足，容易受到初始位姿估计的影响，并且存在旋转模糊的问题。

核心思路：论文的核心思路是将3D高斯溅射（3DGS）与神经网络相结合，利用3DGS强大的场景表示能力和可微渲染特性，以及神经网络的学习能力，从而实现精确的位姿估计。通过解耦位置和角度的对齐，显式建模方向依赖性，来减轻旋转模糊。

技术框架：SplatPose框架主要包含两个部分：首先，使用3DGS表示场景；然后，利用双分支神经架构进行位姿估计。该架构包含一个双注意力光线评分网络（DARS-Net），用于生成位姿估计，并采用粗到精的优化流程，通过对齐查询图像和3DGS合成视图之间的密集2D特征来逐步细化位姿估计。

关键创新：论文的关键创新在于DARS-Net，它通过几何域注意力机制解耦了位置和角度对齐，显式地建模方向依赖性，从而有效地缓解了旋转模糊。此外，粗到精的优化流程利用3DGS的可微渲染特性，通过对齐2D特征来优化位姿，克服了稀疏光线采样带来的误差。

关键设计：DARS-Net包含两个分支，分别处理位置和角度信息。几何域注意力机制通过学习不同方向上的权重，来建模方向依赖性。粗到精的优化流程采用迭代的方式，逐步减小位姿误差。损失函数包括光度损失和几何损失，用于约束合成图像与查询图像的一致性。

🖼️ 关键图片

📊 实验亮点

SplatPose在三个基准数据集上取得了state-of-the-art的6自由度位姿估计精度。在单RGB图像设置下，SplatPose的性能与依赖深度或多视图图像的方法相当甚至更好。实验结果表明，DARS-Net和粗到精的优化流程能够有效地提高位姿估计的精度，并缓解旋转模糊问题。

🎯 应用场景

SplatPose在增强现实、机器人导航、自动驾驶等领域具有广泛的应用前景。高精度的位姿估计是这些应用的基础，SplatPose能够在单RGB图像下实现高精度位姿估计，降低了对硬件的要求，使得这些应用能够更广泛地部署。未来，该技术可以进一步扩展到动态场景和复杂光照条件下。

📄 摘要（原文）

6-DoF pose estimation is a fundamental task in computer vision with wide-ranging applications in augmented reality and robotics. Existing single RGB-based methods often compromise accuracy due to their reliance on initial pose estimates and susceptibility to rotational ambiguity, while approaches requiring depth sensors or multi-view setups incur significant deployment costs. To address these limitations, we introduce SplatPose, a novel framework that synergizes 3D Gaussian Splatting (3DGS) with a dual-branch neural architecture to achieve high-precision pose estimation using only a single RGB image. Central to our approach is the Dual-Attention Ray Scoring Network (DARS-Net), which innovatively decouples positional and angular alignment through geometry-domain attention mechanisms, explicitly modeling directional dependencies to mitigate rotational ambiguity. Additionally, a coarse-to-fine optimization pipeline progressively refines pose estimates by aligning dense 2D features between query images and 3DGS-synthesized views, effectively correcting feature misalignment and depth errors from sparse ray sampling. Experiments on three benchmark datasets demonstrate that SplatPose achieves state-of-the-art 6-DoF pose estimation accuracy in single RGB settings, rivaling approaches that depend on depth or multi-view images.

SplatPose: Geometry-Aware 6-DoF Pose Estimation from Single RGB Image via 3D Gaussian Splatting

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理