LetsMap: Unsupervised Representation Learning for Semantic BEV Mapping
作者: Nikhil Gosala, Kürsat Petek, B Ravi Kiran, Senthil Yogamani, Paulo Drews-Jr, Wolfram Burgard, Abhinav Valada
分类: cs.CV, cs.AI, cs.RO
发布日期: 2024-05-29
备注: 23 pages, 5 figures
💡 一句话要点
提出LetsMap,一种无监督语义BEV地图表示学习方法,解决自动驾驶场景中标注数据依赖问题。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 语义BEV地图 无监督学习 表示学习 自动驾驶 时空一致性 掩码自编码器 单目视觉
📋 核心要点
- 现有BEV地图构建方法依赖大量人工标注数据,成本高昂且难以扩展。
- LetsMap通过无监督预训练,独立学习场景几何和语义信息,降低了对标注数据的需求。
- 实验表明,该方法仅使用1%的BEV标签即可达到与全监督方法相当的性能。
📝 摘要(中文)
本文提出了一种无监督表示学习方法LetsMap,用于从单目前视图像生成语义鸟瞰图(BEV)。该方法旨在解决BEV地图构建中对大量人工标注数据的依赖问题。LetsMap通过两个独立的神经通路,以无监督的方式预训练网络,分别学习场景几何和语义信息。利用前视图像的空间和时间一致性学习场景几何,并采用一种新颖的时间掩码自编码器来编码场景表示。最后,使用少量BEV标签对网络进行微调,用于语义BEV地图构建。在KITTI-360和nuScenes数据集上的大量实验表明,该方法在仅使用1%的BEV标签且不使用额外标注数据的情况下,性能与现有最先进方法相当。
🔬 方法详解
问题定义:现有语义BEV地图构建方法严重依赖大量人工标注的BEV ground truth数据,标注成本高,限制了其在实际场景中的应用。如何减少对标注数据的依赖,实现label-efficient的语义BEV地图构建是一个关键问题。
核心思路:该论文的核心思路是利用无监督学习方法,从单目前视图像中学习场景的几何和语义表示,从而减少对BEV标注数据的依赖。通过独立学习几何和语义信息,并利用前视图像的时空一致性,可以有效地进行无监督预训练。
技术框架:LetsMap包含两个主要的阶段:无监督预训练和有监督微调。在无监督预训练阶段,网络包含两个独立的通路,分别学习场景几何和语义信息。几何学习通路利用前视图像的时空一致性,通过预测相邻帧的变换关系来学习场景几何。语义学习通路采用时间掩码自编码器,通过重建被掩盖的图像区域来学习场景语义表示。在有监督微调阶段,使用少量BEV标签对整个网络进行微调,用于语义BEV地图构建。
关键创新:该论文的关键创新在于提出了一种完全无监督的预训练方法,用于学习语义BEV地图的表示。具体来说,利用前视图像的时空一致性进行几何学习,并提出了一种新颖的时间掩码自编码器进行语义学习。这种无监督预训练方法可以显著减少对BEV标注数据的依赖。
关键设计:在几何学习通路中,使用光流估计网络预测相邻帧之间的光流,并利用光流信息计算相机位姿变换。在语义学习通路中,采用时间掩码自编码器,随机掩盖部分图像区域,并训练网络重建被掩盖的区域。损失函数包括光流预测损失、位姿预测损失和重建损失。微调阶段使用交叉熵损失函数,优化语义BEV地图的预测结果。
🖼️ 关键图片
📊 实验亮点
在KITTI-360和nuScenes数据集上的实验结果表明,LetsMap在仅使用1%的BEV标签的情况下,性能与现有最先进的监督学习方法相当。这表明该方法能够有效地利用无监督学习来减少对标注数据的依赖,具有很强的实用价值。
🎯 应用场景
该研究成果可广泛应用于自动驾驶、机器人导航等领域。通过减少对标注数据的依赖,可以降低BEV地图构建的成本,加速相关技术的落地。此外,该方法还可以应用于其他需要语义地图的场景,例如智能交通管理、城市规划等。
📄 摘要(原文)
Semantic Bird's Eye View (BEV) maps offer a rich representation with strong occlusion reasoning for various decision making tasks in autonomous driving. However, most BEV mapping approaches employ a fully supervised learning paradigm that relies on large amounts of human-annotated BEV ground truth data. In this work, we address this limitation by proposing the first unsupervised representation learning approach to generate semantic BEV maps from a monocular frontal view (FV) image in a label-efficient manner. Our approach pretrains the network to independently reason about scene geometry and scene semantics using two disjoint neural pathways in an unsupervised manner and then finetunes it for the task of semantic BEV mapping using only a small fraction of labels in the BEV. We achieve label-free pretraining by exploiting spatial and temporal consistency of FV images to learn scene geometry while relying on a novel temporal masked autoencoder formulation to encode the scene representation. Extensive evaluations on the KITTI-360 and nuScenes datasets demonstrate that our approach performs on par with the existing state-of-the-art approaches while using only 1% of BEV labels and no additional labeled data.