Map It Anywhere (MIA): Empowering Bird's Eye View Mapping using Large-scale Public Data

📄 arXiv: 2407.08726v2 📥 PDF

作者: Cherie Ho, Jiaye Zou, Omar Alama, Sai Mitheran Jagadesh Kumar, Benjamin Chiang, Taneesh Gupta, Chen Wang, Nikhil Keetha, Katia Sycara, Sebastian Scherer

分类: cs.CV

发布日期: 2024-07-11 (更新: 2024-12-05)

备注: Accepted at the 38th Conference on Neural Information Processing Systems (NeurIPS 2024) Track on Datasets and Benchmarks. Website: https://mapitanywhere.github.io/


💡 一句话要点

MIA:利用大规模公共数据赋能鸟瞰图地图构建

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱六:视频提取与匹配 (Video Extraction)

关键词: 鸟瞰图 地图预测 自主导航 大规模数据 数据引擎

📋 核心要点

  1. 现有BEV地图预测方法依赖自动驾驶车辆数据集,泛化性受限于小区域,难以应对多样化场景。
  2. MIA数据引擎利用Mapillary和OpenStreetMap,自动生成大规模、多样化的FPV图像和BEV地图数据集。
  3. 在MIA数据集上预训练的模型,在BEV地图预测任务中,零样本性能超越现有基线35%。

📝 摘要(中文)

鸟瞰图(BEV)地图因其丰富性和下游任务的灵活性,成为地面机器人导航的一种流行表示。虽然最近的方法在从第一人称视角(FPV)图像预测BEV地图方面显示出希望,但其泛化性受到当前基于自动驾驶车辆数据集所捕获的小区域的限制。本文表明,通过使用两个大规模众包地图平台Mapillary(FPV图像)和OpenStreetMap(BEV语义地图),可以实现更具可扩展性的通用地图预测方法。我们介绍了Map It Anywhere (MIA),一个数据引擎,可以从现有的开源地图平台无缝地管理和建模标记的地图预测数据。使用MIA数据引擎,我们展示了自动收集包含各种地理、景观、环境因素、相机模型和捕获场景的120万对FPV图像和BEV地图数据集的简易性。我们进一步在此数据上训练了一个简单的相机模型无关模型用于BEV地图预测。使用已建立的基准和我们的数据集进行的大量评估表明,MIA管理的数据能够有效地进行通用BEV地图预测的预训练,零样本性能远超在现有数据集上训练的基线35%。我们的分析突出了使用大规模公共地图来开发和测试通用BEV感知的前景,为更强大的自主导航铺平了道路。

🔬 方法详解

问题定义:现有基于第一人称视角(FPV)图像的鸟瞰图(BEV)地图预测方法,依赖于自动驾驶车辆采集的数据集,这些数据集通常覆盖范围有限,难以泛化到新的地理区域、环境条件和相机配置。因此,如何利用更广泛的数据源来提升BEV地图预测的通用性是一个关键问题。

核心思路:论文的核心思路是利用大规模的众包地图平台,如Mapillary和OpenStreetMap,来构建一个包含丰富地理信息和多样化场景的训练数据集。通过在这个大规模数据集上进行预训练,可以提升模型在新的、未见过场景下的BEV地图预测能力。这种方法避免了对特定数据集的过度拟合,从而提高了模型的泛化性。

技术框架:MIA数据引擎是整个框架的核心,它负责从Mapillary和OpenStreetMap中提取和对齐数据,生成FPV图像和BEV地图的配对数据集。然后,使用这些数据训练一个相机模型无关的BEV地图预测模型。该模型接收FPV图像作为输入,输出对应的BEV地图。最后,通过在标准基准和MIA数据集上进行评估,验证模型的性能和泛化能力。

关键创新:最重要的技术创新点在于MIA数据引擎,它能够自动地从大规模公共地图平台中提取和整合数据,从而构建一个包含120万对FPV图像和BEV地图的大规模数据集。这种数据驱动的方法使得模型能够学习到更通用的特征表示,从而提高了其在新的场景下的预测能力。与现有方法相比,MIA无需依赖特定数据集,具有更强的可扩展性和适应性。

关键设计:MIA数据引擎的关键设计包括:1) 数据提取和对齐策略,确保FPV图像和BEV地图在地理位置上的准确对应;2) 数据清洗和过滤机制,去除质量较差的数据;3) 相机模型无关的模型架构,使得模型能够适应不同的相机配置。此外,损失函数的设计也至关重要,需要平衡不同类别的预测精度,并鼓励模型生成清晰的BEV地图。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在MIA数据集上预训练的模型,在标准基准测试中取得了显著的性能提升。更重要的是,该模型在零样本设置下,即在未见过的场景中进行预测时,其性能比在现有数据集上训练的基线模型高出35%。这充分证明了MIA数据引擎的有效性和大规模公共数据在提升BEV地图预测通用性方面的潜力。

🎯 应用场景

该研究成果可广泛应用于机器人导航、自动驾驶、城市规划等领域。通过利用大规模公共数据,可以降低BEV地图构建的成本,提高地图的覆盖范围和更新频率。未来,结合其他传感器数据,如激光雷达和毫米波雷达,可以进一步提升BEV地图的精度和鲁棒性,为更高级的自主导航应用提供支持。

📄 摘要(原文)

Top-down Bird's Eye View (BEV) maps are a popular representation for ground robot navigation due to their richness and flexibility for downstream tasks. While recent methods have shown promise for predicting BEV maps from First-Person View (FPV) images, their generalizability is limited to small regions captured by current autonomous vehicle-based datasets. In this context, we show that a more scalable approach towards generalizable map prediction can be enabled by using two large-scale crowd-sourced mapping platforms, Mapillary for FPV images and OpenStreetMap for BEV semantic maps. We introduce Map It Anywhere (MIA), a data engine that enables seamless curation and modeling of labeled map prediction data from existing open-source map platforms. Using our MIA data engine, we display the ease of automatically collecting a dataset of 1.2 million pairs of FPV images & BEV maps encompassing diverse geographies, landscapes, environmental factors, camera models & capture scenarios. We further train a simple camera model-agnostic model on this data for BEV map prediction. Extensive evaluations using established benchmarks and our dataset show that the data curated by MIA enables effective pretraining for generalizable BEV map prediction, with zero-shot performance far exceeding baselines trained on existing datasets by 35%. Our analysis highlights the promise of using large-scale public maps for developing & testing generalizable BEV perception, paving the way for more robust autonomous navigation. Website: https://mapitanywhere.github.io/