Aerial-ground Cross-modal Localization: Dataset, Ground-truth, and Benchmark
作者: Yandi Yang, Jianping Li, Youqi Liao, Yuhao Li, Yizhe Zhang, Zhen Dong, Bisheng Yang, Naser El-Sheimy
分类: cs.RO
发布日期: 2025-09-09
💡 一句话要点
提出大规模跨模态定位数据集与基准,促进航空-地面视觉定位研究
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 跨模态定位 航空影像 地面影像 点云 数据集 基准测试 视觉定位
📋 核心要点
- 现有视觉定位方法在城市环境中面临纹理缺失、视角变化和长期漂移等挑战。
- 论文提出利用机载激光扫描(ALS)数据作为先验地图,实现更精确和可扩展的视觉定位。
- 构建了包含武汉、香港和旧金山的大规模航空-地面跨模态数据集,并提供基准测试。
📝 摘要(中文)
在密集的城市环境中进行精确的视觉定位是摄影测量、地理空间信息科学和机器人学中的一项基本任务。虽然图像是一种低成本且广泛可用的感知方式,但其在视觉里程计上的有效性通常受到纹理缺失表面、剧烈的视角变化和长期漂移的限制。机载激光扫描(ALS)数据的日益普及为利用ALS作为先验地图,实现可扩展和精确的视觉定位开辟了新途径。然而,由于三个关键限制,基于ALS的定位潜力仍未得到充分挖掘:(1)缺乏平台多样化的数据集,(2)缺乏适用于大规模城市环境的可靠的真值生成方法,以及(3)现有图像到点云(I2P)算法在航空-地面跨平台设置下的验证有限。为了克服这些挑战,我们引入了一个新的大型数据集,该数据集集成了来自移动测绘系统的地面图像与在武汉、香港和旧金山收集的ALS点云。
🔬 方法详解
问题定义:论文旨在解决城市环境中航空-地面跨模态视觉定位问题。现有方法在复杂城市环境中,由于光照变化、视角差异、遮挡等因素,难以实现精确可靠的定位。缺乏大规模、高质量的跨模态数据集和可靠的真值生成方法,也限制了相关算法的开发和评估。
核心思路:论文的核心思路是利用机载激光扫描(ALS)点云作为先验地图,辅助地面图像进行定位。ALS点云具有高精度、不受光照影响等优点,可以为地面图像提供可靠的几何信息。通过建立地面图像与ALS点云之间的对应关系,可以实现精确的跨模态定位。
技术框架:论文构建了一个包含地面图像和ALS点云的大规模数据集。该数据集包括武汉、香港和旧金山三个城市的数据,涵盖了不同的城市环境和建筑风格。论文还提出了一个真值生成方法,用于生成地面图像的精确位姿。此外,论文还提供了一个基准测试,用于评估不同的跨模态定位算法。
关键创新:论文的关键创新在于构建了一个大规模、高质量的航空-地面跨模态数据集,并提供了一个可靠的真值生成方法。该数据集可以促进跨模态定位算法的研究和开发。此外,论文还提供了一个基准测试,可以用于评估不同的算法,并促进该领域的发展。
关键设计:数据集包含来自移动测绘系统的地面图像和机载激光扫描(ALS)点云。地面图像使用高精度相机采集,并进行了精确的标定。ALS点云使用激光雷达系统采集,并进行了精确的配准。真值生成方法基于SLAM技术,并结合了人工校正,以确保真值的精度。基准测试包括多个评估指标,如定位精度、召回率等。
🖼️ 关键图片
📊 实验亮点
论文构建了包含武汉、香港和旧金山的大规模跨模态数据集,数据量远超现有数据集。论文提出的真值生成方法,能够为大规模城市环境生成可靠的定位真值。通过基准测试,验证了现有I2P算法在跨平台定位中的性能,并为后续研究提供了参考。
🎯 应用场景
该研究成果可应用于自动驾驶、机器人导航、城市建模、三维重建等领域。通过融合航空影像和地面影像,可以实现更精确、更鲁棒的定位和建图,为相关应用提供更可靠的基础数据和技术支持。未来,该数据集和基准测试可以促进跨模态定位算法的进一步发展,推动相关技术的应用。
📄 摘要(原文)
Accurate visual localization in dense urban environments poses a fundamental task in photogrammetry, geospatial information science, and robotics. While imagery is a low-cost and widely accessible sensing modality, its effectiveness on visual odometry is often limited by textureless surfaces, severe viewpoint changes, and long-term drift. The growing public availability of airborne laser scanning (ALS) data opens new avenues for scalable and precise visual localization by leveraging ALS as a prior map. However, the potential of ALS-based localization remains underexplored due to three key limitations: (1) the lack of platform-diverse datasets, (2) the absence of reliable ground-truth generation methods applicable to large-scale urban environments, and (3) limited validation of existing Image-to-Point Cloud (I2P) algorithms under aerial-ground cross-platform settings. To overcome these challenges, we introduce a new large-scale dataset that integrates ground-level imagery from mobile mapping systems with ALS point clouds collected in Wuhan, Hong Kong, and San Francisco.