GS-CPR: Efficient Camera Pose Refinement via 3D Gaussian Splatting

作者: Changkun Liu, Shuai Chen, Yash Bhalgat, Siyan Hu, Ming Cheng, Zirui Wang, Victor Adrian Prisacariu, Tristan Braud

分类: cs.CV

发布日期: 2024-08-20 (更新: 2025-03-01)

备注: Accepted to International Conference on Learning Representations (ICLR) 2025. During the ICLR review process, we changed the name of our framework from GSLoc to GS-CPR (Camera Pose Refinement), according to reviewers' comments. The project page is available at https://xrim-lab.github.io/GS-CPR/

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

GS-CPR：利用3D高斯溅射实现高效相机姿态优化

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 相机姿态优化 3D高斯溅射 视觉定位 场景表示 曝光自适应

📋 核心要点

现有相机姿态优化方法在精度和效率上存在挑战，尤其是在复杂环境中。
GS-CPR利用3D高斯溅射和曝光自适应模块，直接在RGB图像上进行姿态优化。
实验表明，GS-CPR在精度和速度上超越了NeRF方法，并在室内数据集上达到SOTA。

📝 摘要（中文）

本文提出了一种新颖的测试时相机姿态优化（CPR）框架GS-CPR，它利用3D高斯溅射（3DGS）作为场景表示。该框架提升了当前最优的绝对姿态回归和场景坐标回归方法的定位精度。3DGS模型渲染高质量的合成图像和深度图，从而促进2D-3D对应关系的建立。GS-CPR直接在RGB图像上操作，无需训练特征提取器或描述符，并利用3D基础模型MASt3R进行精确的2D匹配。为了提高模型在具有挑战性的户外环境中的鲁棒性，我们在3DGS框架中加入了一个曝光自适应模块。因此，GS-CPR能够在给定单个RGB查询和粗略的初始姿态估计的情况下，实现高效的单次姿态优化。在室内和室外视觉定位基准测试中，我们提出的方法在精度和运行时间上都超过了领先的基于NeRF的优化方法，并在两个室内数据集上实现了新的最先进的精度。

🔬 方法详解

问题定义：现有的相机姿态优化方法，特别是基于NeRF的方法，通常计算成本高昂，难以满足实时性要求。此外，在光照变化剧烈的户外环境中，姿态估计的鲁棒性也面临挑战。因此，需要一种更高效、更鲁棒的相机姿态优化方法。

核心思路：GS-CPR的核心思路是利用3D高斯溅射（3DGS）作为场景的紧凑表示，并结合一个预训练的3D基础模型（MASt3R）来建立2D-3D对应关系。通过在3DGS渲染的合成图像上进行匹配，避免了训练特定场景的特征提取器，从而提高了效率。此外，引入曝光自适应模块来增强模型在不同光照条件下的鲁棒性。

技术框架：GS-CPR的整体框架包括以下几个主要步骤：1) 使用3DGS表示场景；2) 根据初始姿态渲染合成图像和深度图；3) 利用MASt3R在真实图像和合成图像之间建立2D对应关系；4) 使用RANSAC等方法估计相机姿态；5) 通过优化算法（如Levenberg-Marquardt）进一步优化姿态。曝光自适应模块被集成到3DGS渲染过程中，以处理光照变化。

关键创新：GS-CPR的关键创新在于：1) 将3DGS作为场景表示，实现了高效的渲染和姿态优化；2) 利用预训练的3D基础模型MASt3R，避免了训练特定场景的特征提取器；3) 引入曝光自适应模块，提高了在复杂光照条件下的鲁棒性。与传统的NeRF方法相比，GS-CPR在效率和精度上都有显著提升。

关键设计：曝光自适应模块通过调整3DGS的颜色参数来模拟不同的曝光条件。具体来说，它学习一个曝光校正因子，并将其应用于3DGS的颜色值。损失函数包括一个光度损失和一个深度损失，用于优化相机姿态。优化算法采用Levenberg-Marquardt算法，并设置合适的迭代次数和收敛阈值。

🖼️ 关键图片

📊 实验亮点

GS-CPR在室内和室外视觉定位基准测试中取得了显著的成果。在7-Scenes数据集上，GS-CPR的平均定位误差优于其他基于NeRF的方法。在两个室内数据集上，GS-CPR实现了新的state-of-the-art精度。此外，GS-CPR的运行时间也明显低于基于NeRF的方法，使其更适合实时应用。

🎯 应用场景

GS-CPR具有广泛的应用前景，包括增强现实、机器人导航、自动驾驶、三维重建等领域。该方法能够实现快速、准确的相机姿态估计，为这些应用提供关键的技术支持。未来，可以进一步研究如何将GS-CPR应用于更大规模的场景和更复杂的环境。

📄 摘要（原文）

We leverage 3D Gaussian Splatting (3DGS) as a scene representation and propose a novel test-time camera pose refinement (CPR) framework, GS-CPR. This framework enhances the localization accuracy of state-of-the-art absolute pose regression and scene coordinate regression methods. The 3DGS model renders high-quality synthetic images and depth maps to facilitate the establishment of 2D-3D correspondences. GS-CPR obviates the need for training feature extractors or descriptors by operating directly on RGB images, utilizing the 3D foundation model, MASt3R, for precise 2D matching. To improve the robustness of our model in challenging outdoor environments, we incorporate an exposure-adaptive module within the 3DGS framework. Consequently, GS-CPR enables efficient one-shot pose refinement given a single RGB query and a coarse initial pose estimation. Our proposed approach surpasses leading NeRF-based optimization methods in both accuracy and runtime across indoor and outdoor visual localization benchmarks, achieving new state-of-the-art accuracy on two indoor datasets. The project page is available at https://xrim-lab.github.io/GS-CPR/.

GS-CPR: Efficient Camera Pose Refinement via 3D Gaussian Splatting

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理