Hierarchical Visual Relocalization with Nearest View Synthesis from Feature Gaussian Splatting

📄 arXiv: 2603.29185v1 📥 PDF

作者: Huaqi Tao, Bingxi Liu, Guangcheng Chen, Fulin Tang, Li He, Hong Zhang

分类: cs.CV

发布日期: 2026-03-31

备注: Accepted to CVPR 2026


💡 一句话要点

提出SplatHLoc,利用特征高斯溅射进行分层视觉重定位,提升鲁棒性。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱六:视频提取与匹配 (Video Extraction)

关键词: 视觉重定位 高斯溅射 特征匹配 分层方法 三维重建

📋 核心要点

  1. 现有基于点的分层重定位方法受限于图像观测稀疏和特征匹配不足,导致精度下降。
  2. SplatHLoc利用特征高斯溅射表示场景,并通过合成虚拟视点和混合特征匹配来提升性能。
  3. 实验结果表明,SplatHLoc在室内外数据集上均表现出更强的鲁棒性,达到新的最优水平。

📝 摘要(中文)

视觉重定位是3D计算机视觉中的一项基本任务,旨在估计相机在重新访问先前已知场景时的位姿。虽然基于点的分层重定位方法显示出强大的可扩展性和效率,但它们通常受到稀疏图像观测和弱特征匹配的限制。本文提出SplatHLoc,一种新颖的分层视觉重定位框架,它使用特征高斯溅射作为场景表示。为了解决数据库图像的稀疏性问题,我们提出了一种自适应视点检索方法,该方法合成视点与查询更紧密对齐的虚拟候选,从而提高初始位姿估计的准确性。对于特征匹配,我们观察到高斯渲染的特征和直接从图像中提取的特征在两阶段匹配过程中表现出不同的优势:前者在粗略阶段表现更好,而后者在精细阶段更有效。因此,我们引入了一种混合特征匹配策略,从而实现更准确和高效的位姿估计。在室内和室外数据集上的大量实验表明,SplatHLoc增强了视觉重定位的鲁棒性,并取得了新的state-of-the-art。

🔬 方法详解

问题定义:视觉重定位旨在确定相机在已知场景中的位姿。现有基于点的分层方法虽然高效,但依赖稀疏的图像观测,特征匹配效果不佳,尤其是在视角变化较大时,导致重定位精度下降。

核心思路:SplatHLoc的核心在于利用Feature Gaussian Splatting (FGS) 来表示场景,FGS 能够从少量图像中学习到连续的场景表示,从而克服了传统方法中场景表示的稀疏性问题。此外,通过合成与查询图像更接近的虚拟视点,可以有效提高初始位姿估计的准确性。

技术框架:SplatHLoc 包含以下主要模块:1) 场景表示:使用 FGS 表示场景,存储场景的几何和外观信息。2) 自适应视点检索:根据查询图像的特征,从数据库中检索相似的视点,并合成更接近查询图像视角的虚拟候选图像。3) 混合特征匹配:在粗略阶段,使用高斯渲染的特征进行匹配;在精细阶段,使用直接从图像中提取的特征进行匹配。4) 位姿优化:利用匹配的特征点,优化相机的位姿。

关键创新:SplatHLoc 的关键创新在于:1) 将 FGS 引入视觉重定位,克服了场景表示的稀疏性问题。2) 提出了自适应视点检索方法,通过合成虚拟视点来提高初始位姿估计的准确性。3) 提出了混合特征匹配策略,充分利用了高斯渲染特征和图像特征的优势。

关键设计:自适应视点检索模块通过计算查询图像与数据库图像之间的视点差异,选择差异最小的若干个视点,然后通过插值生成新的虚拟视点。混合特征匹配策略中,粗略阶段使用预训练的特征提取器提取高斯渲染图像的特征,精细阶段使用另一种特征提取器提取原始图像的特征。损失函数主要包括重投影误差和几何一致性约束。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SplatHLoc 在多个室内外数据集上进行了评估,实验结果表明,SplatHLoc 在重定位精度和鲁棒性方面均优于现有方法。例如,在某室外数据集上,SplatHLoc 的重定位成功率比现有最佳方法提高了 5% 以上,并且运行效率也得到了显著提升。

🎯 应用场景

SplatHLoc 在增强现实、机器人导航、自动驾驶等领域具有广泛的应用前景。它可以帮助机器人或自动驾驶车辆在复杂环境中进行精确定位,从而实现更安全、更可靠的导航。此外,该方法还可以应用于三维重建、虚拟现实等领域,提升用户体验。

📄 摘要(原文)

Visual relocalization is a fundamental task in the field of 3D computer vision, estimating a camera's pose when it revisits a previously known scene. While point-based hierarchical relocalization methods have shown strong scalability and efficiency, they are often limited by sparse image observations and weak feature matching. In this work, we propose SplatHLoc, a novel hierarchical visual relocalization framework that uses Feature Gaussian Splatting as the scene representation. To address the sparsity of database images, we propose an adaptive viewpoint retrieval method that synthesizes virtual candidates with viewpoints more closely aligned with the query, thereby improving the accuracy of initial pose estimation. For feature matching, we observe that Gaussian-rendered features and those extracted directly from images exhibit different strengths across the two-stage matching process: the former performs better in the coarse stage, while the latter proves more effective in the fine stage. Therefore, we introduce a hybrid feature matching strategy, enabling more accurate and efficient pose estimation. Extensive experiments on both indoor and outdoor datasets show that SplatHLoc enhances the robustness of visual relocalization, setting a new state-of-the-art.