MapGCLR: Geospatial Contrastive Learning of Representations for Online Vectorized HD Map Construction

📄 arXiv: 2603.10688v1 📥 PDF

作者: Jonas Merkert, Alexander Blumberg, Jan-Hendrik Pauls, Christoph Stiller

分类: cs.RO, cs.CV

发布日期: 2026-03-11


💡 一句话要点

提出MapGCLR,通过地理空间对比学习提升在线矢量化高清地图构建效果

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 在线高清地图构建 地理空间对比学习 自监督学习 鸟瞰图 矢量化地图 半监督学习 自动驾驶

📋 核心要点

  1. 离线高清地图的创建和维护成本高昂,在线高清地图构建是一种更具扩展性的替代方案,但仍需大量标注数据。
  2. MapGCLR通过地理空间对比学习,利用重叠BEV特征网格的一致性进行自监督训练,减少对大量标注数据的依赖。
  3. 实验表明,MapGCLR在矢量化地图感知性能和BEV特征空间分割方面均优于监督基线,验证了其有效性。

📝 摘要(中文)

本文提出了一种基于地理空间对比学习(MapGCLR)的在线矢量化高清地图构建方法。该方法通过在对比损失函数中强制执行重叠鸟瞰图(BEV)特征网格之间的地理空间一致性,来改进矢量化在线高清地图构建模型中的潜在BEV特征网格表示。为了确保对比对的地理空间重叠,引入了一种分析给定数据集中轨迹之间重叠的方法,并生成符合可调整多轨迹要求的辅助数据集分割。该模型首先在减少的单轨迹标记数据集上进行监督训练,然后在更广泛的未标记数据集上进行自监督训练,从而有效地实现半监督方法。实验结果表明,该方法在下游任务矢量化地图感知性能方面,以及BEV特征空间主成分分析(PCA)可视化的分割方面,均优于监督基线。

🔬 方法详解

问题定义:在线高清地图构建旨在仅在训练时使用地图标注,从而降低成本。然而,现有方法仍然需要大量的标注数据。因此,如何减少对大量标注训练数据的需求,是当前在线高清地图构建面临的关键问题。现有方法的痛点在于依赖大量人工标注,成本高,效率低。

核心思路:本文的核心思路是利用自监督学习,通过对比学习的方式,学习BEV特征网格的表示。具体来说,通过强制执行重叠BEV特征网格之间的地理空间一致性,来提升特征表示的质量。这样,模型就可以在更少的标注数据上进行训练,并在未标注数据上进行自监督学习,从而降低了对标注数据的依赖。

技术框架:MapGCLR的整体框架包含以下几个主要阶段:1) 数据集准备:分析数据集中轨迹之间的重叠,并根据多轨迹要求生成辅助数据集分割。2) 特征提取:使用神经网络提取BEV特征网格。3) 对比学习:构建对比损失函数,强制执行重叠BEV特征网格之间的地理空间一致性。4) 模型训练:使用半监督学习方法,在少量标注数据和大量未标注数据上训练模型。5) 评估:在下游任务(矢量化地图感知)上评估模型的性能。

关键创新:最重要的技术创新点在于提出了基于地理空间一致性的对比学习方法。与传统的对比学习方法不同,MapGCLR利用了地理空间信息,强制执行重叠BEV特征网格之间的特征一致性。这种方法能够更好地学习到具有地理意义的特征表示,从而提升地图构建的性能。

关键设计:在数据集准备阶段,设计了一种分析轨迹重叠的方法,可以根据不同的多轨迹要求生成不同的数据集分割。在对比学习阶段,使用了InfoNCE损失函数,并根据地理空间距离设置了正负样本的选择策略。在网络结构方面,使用了常见的卷积神经网络作为特征提取器。具体的参数设置和网络结构细节在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MapGCLR在矢量化地图感知任务上取得了显著的性能提升。实验结果表明,MapGCLR优于监督基线,在BEV特征空间分割方面也表现出更好的效果。具体性能数据和提升幅度在论文中有详细展示,证明了该方法在在线高清地图构建方面的有效性。

🎯 应用场景

MapGCLR技术可应用于自动驾驶、高精地图构建、机器人导航等领域。通过降低对大量标注数据的依赖,可以加速高精地图的构建和更新,降低成本。此外,该技术还可以用于增强自动驾驶系统的环境感知能力,提高其安全性和可靠性。未来,该技术有望推动自动驾驶技术的广泛应用。

📄 摘要(原文)

Autonomous vehicles rely on map information to understand the world around them. However, the creation and maintenance of offline high-definition (HD) maps remains costly. A more scalable alternative lies in online HD map construction, which only requires map annotations at training time. To further reduce the need for annotating vast training labels, self-supervised training provides an alternative. This work focuses on improving the latent birds-eye-view (BEV) feature grid representation within a vectorized online HD map construction model by enforcing geospatial consistency between overlapping BEV feature grids as part of a contrastive loss function. To ensure geospatial overlap for contrastive pairs, we introduce an approach to analyze the overlap between traversals within a given dataset and generate subsidiary dataset splits following adjustable multi-traversal requirements. We train the same model supervised using a reduced set of single-traversal labeled data and self-supervised on a broader unlabeled set of data following our multi-traversal requirements, effectively implementing a semi-supervised approach. Our approach outperforms the supervised baseline across the board, both quantitatively in terms of the downstream tasks vectorized map perception performance and qualitatively in terms of segmentation in the principal component analysis (PCA) visualization of the BEV feature space.