Disambiguating 2D-3D Correspondences in Gaussian Splatting-based Feature Fields for Visual Localization

作者: Miso Lee, Sangeek Hyun, Yerim Jeon, Jae-Pil Heo

分类: cs.CV

发布日期: 2026-05-08

💡 一句话要点

提出SplitGS-Loc框架，通过高斯分裂与多视图一致性优化解决GSFF视觉定位中的2D-3D对应歧义问题。

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 高斯溅射 视觉定位 特征场 多视图一致性 位姿估计 PnP算法

📋 核心要点

现有基于光度优化的GSFF方法存在多对一映射问题，导致2D-3D对应关系模糊，严重影响PnP位姿估计的稳定性。
提出SplitGS-Loc框架，通过高斯混合分裂策略将大高斯分解为小高斯，并利用组合权重筛选高贡献度高斯以增强多视图一致性。
实验表明，该方法无需场景特定训练或迭代位姿优化，即可在多个定位基准测试中实现SOTA性能，显著提升了定位精度与效率。

📝 摘要（中文）

尽管基于高斯溅射的特征场（GSFFs）在视觉定位中展现出潜力，但本文指出，仅通过光度优化构建的GSFF在本质上并不适合2D-3D匹配。每个高斯球的体积范围会导致多对一的像素-点映射，从而破坏基于PnP的位姿估计稳定性，且光度优化会产生缺乏多视图一致性的冗余高斯球。为解决这些问题，我们提出了SplitGS-Loc，这是一个专门用于定位的GSFF构建框架，通过利用高斯属性来消除2D-3D对应的歧义。我们的核心设计是基于高斯混合的分裂策略，将每个高斯球分解为更小的高斯球，将模糊的多对一映射替换为精确的一对一对应。同时，我们利用GS光栅化中的组合权重来选择在多视图中具有显著且一致贡献的高斯球，并通过强像素-高斯关联聚合判别性特征，从而强制实现多视图一致性。由此产生的紧凑且具有判别力的特征场实现了稳定的PnP收敛，并在定位基准测试中达到了SOTA性能。

🔬 方法详解

问题定义：论文旨在解决基于高斯溅射（Gaussian Splatting）的特征场在视觉定位任务中的局限性。现有方法主要依赖光度一致性进行优化，导致高斯球体积过大，产生多对一的像素-点映射，且生成的特征缺乏多视图一致性，导致PnP算法难以获得稳定的位姿估计。

核心思路：核心思想是通过“分裂”与“筛选”来重构特征场。将模糊的大高斯球分解为更小、更精确的高斯球，从而将多对一的映射关系转化为一对一的精确对应，并通过权重机制剔除冗余高斯，确保特征在不同视角下的稳定性。

技术框架：框架主要包含两个阶段：首先是基于高斯混合模型（Mixture-of-Gaussians）的分裂过程，将原始高斯场细化；其次是利用光栅化过程中的组合权重（Composition Weights）进行特征聚合，筛选出对多视图定位贡献显著的高斯球，构建紧凑且判别性强的特征场。

关键创新：最重要的创新在于将高斯属性（如位置、协方差、权重）直接用于解决几何对应歧义。与传统方法仅关注图像重建质量不同，该方法通过显式地强制执行多视图一致性，使得特征场更适合几何定位任务。

关键设计：关键设计包括基于组合权重的特征聚合策略，该策略能够量化每个高斯球对特定像素的贡献度，从而在构建特征场时有效过滤掉噪声高斯，并结合PnP算法实现无需额外迭代优化的直接定位。

🖼️ 关键图片

📊 实验亮点

SplitGS-Loc在多个主流视觉定位基准测试中表现优异，无需场景特定训练或迭代位姿优化，即实现了SOTA性能。实验结果显示，该方法通过分裂策略有效减少了匹配歧义，显著提升了PnP算法的收敛稳定性，在保持特征场紧凑性的同时，大幅提高了定位的准确率与鲁棒性。

🎯 应用场景

该研究主要应用于机器人导航、增强现实（AR）以及自动驾驶中的视觉定位任务。通过构建高精度、高一致性的特征场，该方法能够显著提升设备在复杂动态环境下的位姿估计精度，为实时SLAM系统和大规模场景重建提供更鲁棒的几何支撑。

📄 摘要（原文）

While Gaussian Splatting-based Feature Fields (GSFFs) have shown promise for visual localization, this paper highlights that photometrically optimized GSFFs are inherently ill-suited for 2D-3D matching. The volumetric extent of each Gaussian induces many-to-one pixel-to-point mappings that destabilize PnP-based pose estimation, while photometric optimization gives rise to superfluous Gaussians devoid of multi-view consistency. To address these issues, we propose SplitGS-Loc, a localization-specialized GSFFs construction framework that disambiguates 2D-3D correspondences by exploiting Gaussian attributes. Our key design, Mixture-of-Gaussians-based splitting, decomposes each Gaussian into smaller Gaussians, replacing ambiguous many-to-one with precise one-to-one correspondences. In parallel, we exploit composition weights from GS rasterization to select Gaussians that significantly and consistently contribute across multiple views and aggregate discriminative features through strong pixel-Gaussian associations, enforcing multi-view consistency. The resulting compact yet discriminative feature fields enable stable PnP convergence, achieving state-of-the-art performance on localization benchmarks. Extensive experiments validate that SplitGS-Loc extends the utility of photometric GSFFs to accurate and efficient localization by exploiting Gaussian attributes, without per-scene training or iterative pose refinement.

Disambiguating 2D-3D Correspondences in Gaussian Splatting-based Feature Fields for Visual Localization

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理