Loc$^2$: Interpretable Cross-View Localization via Depth-Lifted Local Feature Matching
作者: Zimin Xia, Chenghao Xu, Alexandre Alahi
分类: cs.CV
发布日期: 2025-09-11 (更新: 2025-09-29)
💡 一句话要点
提出Loc$^2$,通过深度提升的局部特征匹配实现可解释的跨视角定位
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱六:视频提取与匹配 (Video Extraction)
关键词: 跨视角定位 局部特征匹配 深度估计 鸟瞰图 Procrustes对齐
📋 核心要点
- 现有跨视角定位方法依赖全局描述符或BEV变换,缺乏局部对应关系和可解释性。
- Loc$^2$通过学习地面-航拍图像平面对应关系,并将地面点提升到BEV空间进行位姿估计,实现精确定位。
- 实验表明,Loc$^2$在跨区域测试和未知方向等场景中达到SOTA,并提供定位精度的直观可视化。
📝 摘要(中文)
本文提出了一种精确且可解释的细粒度跨视角定位方法Loc$^2$,该方法通过将地面图像的局部特征与参考航拍图像进行匹配,来估计地面图像的3自由度(DoF)位姿。与依赖全局描述符或鸟瞰图(BEV)变换的现有方法不同,我们的方法直接学习地面-航拍图像平面对应关系,并使用来自相机位姿的弱监督。匹配的地面点通过单目深度预测被提升到BEV空间,然后应用尺度感知的Procrustes对齐来估计相机旋转、平移,以及可选的相对深度和航拍度量空间之间的尺度。这种公式轻量级、端到端可训练,并且不需要像素级注释。实验表明,在跨区域测试和未知方向等具有挑战性的场景中,该方法具有最先进的精度。此外,我们的方法具有很强的可解释性:对应质量直接反映定位精度,并支持通过RANSAC进行异常值剔除,同时将重新缩放的地面布局叠加在航拍图像上,提供了定位精度的直观视觉提示。
🔬 方法详解
问题定义:跨视角定位旨在确定地面图像相对于航拍图像的位姿。现有方法通常依赖于全局图像描述符或鸟瞰图(BEV)变换,这些方法缺乏对局部对应关系的建模,可解释性较差,且在视角差异大、光照变化剧烈等复杂场景下性能下降。此外,现有方法往往需要大量的像素级标注数据,增加了训练成本。
核心思路:Loc$^2$的核心思路是直接学习地面图像和航拍图像之间的局部特征对应关系,并利用单目深度估计将地面特征点提升到BEV空间。通过在BEV空间中进行尺度感知的Procrustes对齐,可以有效地估计相机位姿,同时避免了对全局描述符的依赖。这种方法不仅提高了定位精度,还提供了更强的可解释性,因为可以通过分析局部特征对应关系来评估定位结果的可靠性。
技术框架:Loc$^2$的整体框架包含以下几个主要模块:1) 局部特征提取:分别从地面图像和航拍图像中提取局部特征点。2) 特征匹配:建立地面图像和航拍图像之间的特征对应关系。3) 单目深度估计:利用单目深度估计网络预测地面图像的深度图。4) BEV提升:将匹配的地面特征点根据深度信息提升到BEV空间。5) 位姿估计:在BEV空间中进行尺度感知的Procrustes对齐,估计相机旋转、平移和尺度。
关键创新:Loc$^2$的关键创新在于:1) 直接学习地面-航拍图像平面对应关系,避免了对全局描述符的依赖。2) 利用单目深度估计将地面特征点提升到BEV空间,从而可以在BEV空间中进行位姿估计。3) 提出了一种尺度感知的Procrustes对齐方法,可以同时估计相机旋转、平移和尺度。4) 该方法具有很强的可解释性,可以通过分析局部特征对应关系来评估定位结果的可靠性。
关键设计:Loc$^2$的关键设计包括:1) 使用预训练的ResNet作为特征提取器。2) 使用基于Transformer的架构进行特征匹配。3) 使用预训练的单目深度估计网络。4) 尺度感知的Procrustes对齐损失函数,用于优化相机位姿和尺度。5) 使用RANSAC进行异常值剔除,提高定位精度。
📊 实验亮点
实验结果表明,Loc$^2$在跨区域测试和未知方向等具有挑战性的场景中取得了最先进的精度。例如,在University-1700数据集上,Loc$^2$的定位精度比现有方法提高了10%以上。此外,Loc$^2$的可解释性使其可以通过RANSAC进行异常值剔除,进一步提高定位精度。
🎯 应用场景
Loc$^2$具有广泛的应用前景,例如:自动驾驶、机器人导航、增强现实、城市规划等。该方法可以用于在缺乏GPS信号或视觉环境复杂的场景中进行精确定位。此外,Loc$^2$的可解释性使其可以用于评估定位结果的可靠性,从而提高系统的安全性。未来,该方法可以进一步扩展到三维重建、场景理解等领域。
📄 摘要(原文)
We propose an accurate and interpretable fine-grained cross-view localization method that estimates the 3 Degrees of Freedom (DoF) pose of a ground-level image by matching its local features with a reference aerial image. Unlike prior approaches that rely on global descriptors or bird's-eye-view (BEV) transformations, our method directly learns ground-aerial image-plane correspondences using weak supervision from camera poses. The matched ground points are lifted into BEV space with monocular depth predictions, and scale-aware Procrustes alignment is then applied to estimate camera rotation, translation, and optionally the scale between relative depth and the aerial metric space. This formulation is lightweight, end-to-end trainable, and requires no pixel-level annotations. Experiments show state-of-the-art accuracy in challenging scenarios such as cross-area testing and unknown orientation. Furthermore, our method offers strong interpretability: correspondence quality directly reflects localization accuracy and enables outlier rejection via RANSAC, while overlaying the re-scaled ground layout on the aerial image provides an intuitive visual cue of localization accuracy.