VQ-Map: Bird's-Eye-View Map Layout Estimation in Tokenized Discrete Space via Vector Quantization
作者: Yiwei Zhang, Jin Gao, Fudong Ge, Guan Luo, Bing Li, Zhaoxiang Zhang, Haibin Ling, Weiming Hu
分类: cs.CV, cs.AI
发布日期: 2024-11-03
🔗 代码/项目: GITHUB
💡 一句话要点
VQ-Map:利用向量量化在离散空间中进行鸟瞰图布局估计,刷新多项记录。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics) 支柱四:生成式动作 (Generative Motion)
关键词: 鸟瞰图估计 向量量化 变分自编码器 离散表示学习 自动驾驶 地图布局估计
📋 核心要点
- 现有BEV地图布局估计方法在遮挡、低分辨率等情况下性能受限,难以生成高质量地图。
- 提出VQ-Map,利用VQ-VAE学习BEV语义先验,通过码本嵌入连接透视视图和鸟瞰图特征。
- 在nuScenes和Argoverse数据集上,VQ-Map在BEV地图布局估计任务上取得了新的state-of-the-art结果。
📝 摘要(中文)
鸟瞰图(BEV)地图布局估计需要对车辆周围环境要素的语义信息进行准确而全面的理解,以使结果连贯且真实。由于遮挡、不利的成像条件和低分辨率带来的挑战,生成与透视视图(PV)中损坏或无效区域相对应的BEV语义地图最近变得非常有吸引力。本文旨在解决如何将PV特征与生成模型对齐以促进地图估计的问题。我们提出利用类似于向量量化变分自编码器(VQ-VAE)的生成模型,以获取token化的离散空间中高级BEV语义的先验知识。受益于获得的BEV tokens以及包含地面实况地图中不同BEV元素语义的码本嵌入,我们能够基于专门的token解码器模块,直接将稀疏的骨干图像特征与来自离散表示学习的BEV tokens对齐,并最终生成高质量的BEV地图,其中BEV码本嵌入充当PV和BEV之间的桥梁。我们在nuScenes和Argoverse基准测试中评估了我们的模型VQ-Map的BEV地图布局估计性能,在nuScenes上实现了surround-view/monocular评估的62.2/47.6 mean IoU,以及Argoverse上monocular评估的73.4 IoU,这些都为该地图布局估计任务创造了新的记录。
🔬 方法详解
问题定义:现有BEV地图布局估计方法在处理遮挡、光照变化和低分辨率图像时,难以准确推断地图信息。尤其是在透视视图(PV)中存在损坏或无效区域时,生成对应的BEV语义地图是一个挑战。现有方法难以有效地对齐PV特征与BEV地图的生成模型,导致地图估计的准确性和完整性不足。
核心思路:本文的核心思路是利用向量量化变分自编码器(VQ-VAE)学习BEV语义的离散表示,从而获得BEV地图布局的先验知识。通过将PV特征与学习到的BEV tokens对齐,可以有效地利用图像信息生成高质量的BEV地图。这种方法将连续的特征空间映射到离散的token空间,简化了PV和BEV之间的映射关系。
技术框架:VQ-Map的整体框架包含以下几个主要模块:1) 使用图像骨干网络提取透视视图(PV)的特征;2) 使用VQ-VAE学习BEV地图的离散表示,生成BEV tokens和对应的码本嵌入;3) 设计一个token解码器模块,将PV特征与BEV tokens对齐;4) 利用对齐后的特征生成最终的BEV地图。整个流程通过端到端的方式进行训练。
关键创新:VQ-Map的关键创新在于利用VQ-VAE学习BEV语义的离散表示,并将码本嵌入作为连接PV和BEV特征的桥梁。这种方法将连续的特征空间映射到离散的token空间,简化了PV和BEV之间的映射关系,提高了地图估计的准确性和鲁棒性。与现有方法相比,VQ-Map能够更好地利用图像信息,生成更完整、更准确的BEV地图。
关键设计:VQ-VAE的码本大小是一个关键参数,决定了BEV语义表示的粒度。Token解码器模块的设计需要考虑如何有效地将PV特征与BEV tokens对齐。损失函数包括VQ-VAE的重构损失和量化损失,以及BEV地图生成的交叉熵损失。网络结构方面,可以使用ResNet等常用的图像骨干网络,以及Transformer等序列模型来处理BEV tokens。
🖼️ 关键图片
📊 实验亮点
VQ-Map在nuScenes数据集上,surround-view评估的mean IoU达到62.2,monocular评估达到47.6;在Argoverse数据集上,monocular评估达到73.4。这些结果均超过了现有最佳方法,为BEV地图布局估计任务创造了新的记录。实验结果表明,VQ-Map能够有效地利用图像信息,生成高质量的BEV地图。
🎯 应用场景
VQ-Map在自动驾驶领域具有广泛的应用前景,可以用于高精地图构建、路径规划、环境感知和决策控制。通过准确估计车辆周围的地图布局,可以提高自动驾驶系统的安全性和可靠性。此外,该方法还可以应用于机器人导航、增强现实等领域。
📄 摘要(原文)
Bird's-eye-view (BEV) map layout estimation requires an accurate and full understanding of the semantics for the environmental elements around the ego car to make the results coherent and realistic. Due to the challenges posed by occlusion, unfavourable imaging conditions and low resolution, \emph{generating} the BEV semantic maps corresponding to corrupted or invalid areas in the perspective view (PV) is appealing very recently. \emph{The question is how to align the PV features with the generative models to facilitate the map estimation}. In this paper, we propose to utilize a generative model similar to the Vector Quantized-Variational AutoEncoder (VQ-VAE) to acquire prior knowledge for the high-level BEV semantics in the tokenized discrete space. Thanks to the obtained BEV tokens accompanied with a codebook embedding encapsulating the semantics for different BEV elements in the groundtruth maps, we are able to directly align the sparse backbone image features with the obtained BEV tokens from the discrete representation learning based on a specialized token decoder module, and finally generate high-quality BEV maps with the BEV codebook embedding serving as a bridge between PV and BEV. We evaluate the BEV map layout estimation performance of our model, termed VQ-Map, on both the nuScenes and Argoverse benchmarks, achieving 62.2/47.6 mean IoU for surround-view/monocular evaluation on nuScenes, as well as 73.4 IoU for monocular evaluation on Argoverse, which all set a new record for this map layout estimation task. The code and models are available on \url{https://github.com/Z1zyw/VQ-Map}.