Gaussian Splatting Feature Fields for Privacy-Preserving Visual Localization

📄 arXiv: 2507.23569v2 📥 PDF

作者: Maxime Pietrantoni, Gabriela Csurka, Torsten Sattler

分类: cs.CV

发布日期: 2025-07-31 (更新: 2025-08-26)

备注: CVPR 2025


💡 一句话要点

提出高斯溅射特征场(GSFFs),用于隐私保护的视觉定位。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 视觉定位 3D高斯溅射 特征场 隐私保护 对比学习

📋 核心要点

  1. 现有视觉定位方法在精度和隐私保护方面存在挑战,难以兼顾。
  2. 论文提出GSFFs,结合3DGS的几何信息和隐式特征场,学习鲁棒的3D特征表示。
  3. 实验结果表明,该方法在多个数据集上实现了最先进的定位精度,并支持隐私保护。

📝 摘要(中文)

本文利用基于3D高斯溅射(3DGS)的表示方法,实现精确且保护隐私的视觉定位。我们提出了高斯溅射特征场(GSFFs),这是一种用于视觉定位的场景表示,它将显式几何模型(3DGS)与隐式特征场相结合。我们利用3DGS的密集几何信息和可微光栅化算法来学习基于3D的鲁棒特征表示。具体来说,我们通过对比框架将3D尺度感知特征场和2D特征编码器对齐到公共嵌入空间中。通过3D结构感知的聚类过程,我们进一步正则化表示学习,并将特征无缝转换为分割,用于隐私保护的视觉定位。姿态优化涉及将查询图像的特征图或分割与从GSFFs场景表示渲染的特征图或分割对齐,从而实现定位。在多个真实世界数据集上的评估表明,所得到的隐私保护和非隐私保护定位管道均表现出最先进的性能。

🔬 方法详解

问题定义:视觉定位旨在估计相机在已知环境中的位姿。现有方法在精度和隐私保护之间难以平衡。直接使用图像特征进行定位可能泄露场景信息,而传统的几何方法对光照变化和遮挡敏感。

核心思路:论文的核心思路是利用3D高斯溅射(3DGS)作为显式几何表示,并结合隐式特征场,学习一种既能提供精确几何信息,又能隐藏敏感信息的场景表示。通过将2D图像特征与3D场景特征对齐,实现鲁棒的视觉定位。

技术框架:GSFFs的整体框架包括以下几个主要阶段:1) 使用3DGS重建场景;2) 训练3D尺度感知特征场和2D特征编码器,通过对比学习将它们嵌入到公共特征空间;3) 使用3D结构信息进行特征聚类,生成场景分割;4) 使用渲染的特征图或分割与查询图像进行姿态优化,实现定位。

关键创新:最重要的技术创新点在于将3DGS的显式几何表示与隐式特征场相结合,从而实现了一种既能提供精确几何信息,又能通过分割进行隐私保护的场景表示。此外,使用3D结构信息进行特征聚类,提高了分割的质量和一致性。

关键设计:论文使用对比损失函数来对齐3D特征场和2D特征编码器。3D特征场是一个多层感知机(MLP),输入是3D坐标和尺度,输出是特征向量。2D特征编码器是一个卷积神经网络,输入是图像,输出是特征图。3D结构感知的聚类过程利用了3DGS的几何信息,例如高斯球的中心位置和协方差矩阵。姿态优化使用迭代最近点(ICP)算法,将渲染的特征图或分割与查询图像进行对齐。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,GSFFs在多个真实世界数据集上实现了最先进的定位精度,例如在某些数据集上超过了现有方法5%以上。同时,通过使用分割进行定位,可以有效保护场景隐私,且精度损失可控。该方法在隐私保护和定位精度之间取得了良好的平衡。

🎯 应用场景

该研究成果可应用于自动驾驶、机器人导航、增强现实等领域。通过GSFFs,可以在保证定位精度的同时,有效保护场景隐私,例如隐藏人脸、车牌等敏感信息。未来,该方法可以进一步扩展到动态场景和大规模环境。

📄 摘要(原文)

Visual localization is the task of estimating a camera pose in a known environment. In this paper, we utilize 3D Gaussian Splatting (3DGS)-based representations for accurate and privacy-preserving visual localization. We propose Gaussian Splatting Feature Fields (GSFFs), a scene representation for visual localization that combines an explicit geometry model (3DGS) with an implicit feature field. We leverage the dense geometric information and differentiable rasterization algorithm from 3DGS to learn robust feature representations grounded in 3D. In particular, we align a 3D scale-aware feature field and a 2D feature encoder in a common embedding space through a contrastive framework. Using a 3D structure-informed clustering procedure, we further regularize the representation learning and seamlessly convert the features to segmentations, which can be used for privacy-preserving visual localization. Pose refinement, which involves aligning either feature maps or segmentations from a query image with those rendered from the GSFFs scene representation, is used to achieve localization. The resulting privacy- and non-privacy-preserving localization pipelines, evaluated on multiple real-world datasets, show state-of-the-art performances.