Aerial-ground Cross-modal Localization: Dataset, Ground-truth, and Benchmark

作者: Yandi Yang, Jianping Li, Youqi Liao, Yuhao Li, Yizhe Zhang, Zhen Dong, Bisheng Yang, Naser El-Sheimy

分类: cs.RO

发布日期: 2025-09-09

💡 一句话要点

提出大规模跨模态定位数据集与基准，促进航空-地面视觉定位研究

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 跨模态定位 航空影像 地面影像 点云 数据集 基准测试 视觉定位

📋 核心要点

现有视觉定位方法在城市环境中面临纹理缺失、视角变化和长期漂移等挑战。
论文提出利用机载激光扫描（ALS）数据作为先验地图，实现更精确和可扩展的视觉定位。
构建了包含武汉、香港和旧金山的大规模航空-地面跨模态数据集，并提供基准测试。

📝 摘要（中文）

在密集的城市环境中进行精确的视觉定位是摄影测量、地理空间信息科学和机器人学中的一项基本任务。虽然图像是一种低成本且广泛可用的感知方式，但其在视觉里程计上的有效性通常受到纹理缺失表面、剧烈的视角变化和长期漂移的限制。机载激光扫描（ALS）数据的日益普及为利用ALS作为先验地图，实现可扩展和精确的视觉定位开辟了新途径。然而，由于三个关键限制，基于ALS的定位潜力仍未得到充分挖掘：（1）缺乏平台多样化的数据集，（2）缺乏适用于大规模城市环境的可靠的真值生成方法，以及（3）现有图像到点云（I2P）算法在航空-地面跨平台设置下的验证有限。为了克服这些挑战，我们引入了一个新的大型数据集，该数据集集成了来自移动测绘系统的地面图像与在武汉、香港和旧金山收集的ALS点云。

🔬 方法详解

问题定义：论文旨在解决城市环境中航空-地面跨模态视觉定位问题。现有方法在复杂城市环境中，由于光照变化、视角差异、遮挡等因素，难以实现精确可靠的定位。缺乏大规模、高质量的跨模态数据集和可靠的真值生成方法，也限制了相关算法的开发和评估。

核心思路：论文的核心思路是利用机载激光扫描（ALS）点云作为先验地图，辅助地面图像进行定位。ALS点云具有高精度、不受光照影响等优点，可以为地面图像提供可靠的几何信息。通过建立地面图像与ALS点云之间的对应关系，可以实现精确的跨模态定位。

技术框架：论文构建了一个包含地面图像和ALS点云的大规模数据集。该数据集包括武汉、香港和旧金山三个城市的数据，涵盖了不同的城市环境和建筑风格。论文还提出了一个真值生成方法，用于生成地面图像的精确位姿。此外，论文还提供了一个基准测试，用于评估不同的跨模态定位算法。

关键创新：论文的关键创新在于构建了一个大规模、高质量的航空-地面跨模态数据集，并提供了一个可靠的真值生成方法。该数据集可以促进跨模态定位算法的研究和开发。此外，论文还提供了一个基准测试，可以用于评估不同的算法，并促进该领域的发展。

关键设计：数据集包含来自移动测绘系统的地面图像和机载激光扫描（ALS）点云。地面图像使用高精度相机采集，并进行了精确的标定。ALS点云使用激光雷达系统采集，并进行了精确的配准。真值生成方法基于SLAM技术，并结合了人工校正，以确保真值的精度。基准测试包括多个评估指标，如定位精度、召回率等。

🖼️ 关键图片

📊 实验亮点

论文构建了包含武汉、香港和旧金山的大规模跨模态数据集，数据量远超现有数据集。论文提出的真值生成方法，能够为大规模城市环境生成可靠的定位真值。通过基准测试，验证了现有I2P算法在跨平台定位中的性能，并为后续研究提供了参考。

🎯 应用场景

该研究成果可应用于自动驾驶、机器人导航、城市建模、三维重建等领域。通过融合航空影像和地面影像，可以实现更精确、更鲁棒的定位和建图，为相关应用提供更可靠的基础数据和技术支持。未来，该数据集和基准测试可以促进跨模态定位算法的进一步发展，推动相关技术的应用。

📄 摘要（原文）

Accurate visual localization in dense urban environments poses a fundamental task in photogrammetry, geospatial information science, and robotics. While imagery is a low-cost and widely accessible sensing modality, its effectiveness on visual odometry is often limited by textureless surfaces, severe viewpoint changes, and long-term drift. The growing public availability of airborne laser scanning (ALS) data opens new avenues for scalable and precise visual localization by leveraging ALS as a prior map. However, the potential of ALS-based localization remains underexplored due to three key limitations: (1) the lack of platform-diverse datasets, (2) the absence of reliable ground-truth generation methods applicable to large-scale urban environments, and (3) limited validation of existing Image-to-Point Cloud (I2P) algorithms under aerial-ground cross-platform settings. To overcome these challenges, we introduce a new large-scale dataset that integrates ground-level imagery from mobile mapping systems with ALS point clouds collected in Wuhan, Hong Kong, and San Francisco.

Aerial-ground Cross-modal Localization: Dataset, Ground-truth, and Benchmark

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理