OneBEV: Using One Panoramic Image for Bird's-Eye-View Semantic Mapping

📄 arXiv: 2409.13912v1 📥 PDF

作者: Jiale Wei, Junwei Zheng, Ruiping Liu, Jie Hu, Jiaming Zhang, Rainer Stiefelhagen

分类: cs.CV

发布日期: 2024-09-20

备注: Accepted by ACCV 2024. Project code at: https://github.com/JialeWei/OneBEV


💡 一句话要点

OneBEV:利用单张全景图像实现鸟瞰图语义地图构建

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 鸟瞰图 语义地图 全景图像 自动驾驶 视图转换

📋 核心要点

  1. 传统BEV方法依赖多相机和复杂姿态估计,存在校准和同步难题,限制了其应用。
  2. OneBEV仅用单张全景图构建BEV语义地图,简化流程并降低计算复杂度。
  3. 提出的MVT模块能有效处理全景图的空间扭曲,实验在两个数据集上取得SOTA性能。

📝 摘要(中文)

在自动驾驶领域,鸟瞰图(BEV)感知因其提供比针孔前视图像和全景图像更全面的信息而备受关注。传统的BEV方法依赖于多个窄视野相机和复杂的姿态估计,常常面临校准和同步问题。为了克服上述挑战,本文提出了OneBEV,一种新颖的BEV语义地图构建方法,仅使用单张全景图像作为输入,简化了地图构建过程并降低了计算复杂度。论文专门设计了一个名为Mamba View Transformation (MVT)的扭曲感知模块来处理全景图像中的空间扭曲,将前视特征转换为BEV特征,而无需使用传统的注意力机制。除了高效的框架,论文还贡献了两个数据集,即nuScenes-360和DeepAccident-360,专门为OneBEV任务定制。实验结果表明,OneBEV在nuScenes-360和DeepAccident-360上分别实现了51.1%和36.1%的mIoU,达到了最先进的性能。这项工作推进了自动驾驶中的BEV语义地图构建,为更先进和可靠的自动驾驶系统铺平了道路。

🔬 方法详解

问题定义:现有BEV语义地图构建方法通常依赖多个相机以及复杂的相机内外参标定和同步,这增加了系统的复杂性和成本,并且在实际应用中容易出现误差累积。全景图像虽然提供了360度的视野,但其固有的空间扭曲给直接应用现有BEV方法带来了挑战。

核心思路:OneBEV的核心思路是利用单张全景图像作为输入,通过一个专门设计的扭曲感知模块(MVT),将全景图像中的前视特征转换为BEV特征。这种方法避免了多相机系统的复杂性,并直接解决了全景图像的空间扭曲问题。

技术框架:OneBEV框架主要包含以下几个阶段:1) 全景图像输入;2) 特征提取(使用 backbone 网络提取全景图像的特征);3) Mamba View Transformation (MVT) 模块,将前视特征转换为BEV特征;4) BEV语义分割(使用分割头对BEV特征进行语义分割)。

关键创新:OneBEV的关键创新在于Mamba View Transformation (MVT) 模块。MVT模块是一种扭曲感知模块,它能够有效地处理全景图像中的空间扭曲,并将前视特征准确地转换到BEV空间。与传统的基于注意力机制的视图转换方法不同,MVT模块避免了注意力机制带来的计算复杂度,提高了效率。

关键设计:MVT模块的具体实现细节未知,但根据论文描述,它旨在解决全景图像的空间扭曲问题,并将前视特征准确地转换到BEV空间。论文中提到MVT模块没有使用传统的注意力机制,这表明它可能采用了其他更高效的变换方法。此外,论文还贡献了两个专门为OneBEV任务定制的数据集,nuScenes-360和DeepAccident-360,用于训练和评估模型。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

OneBEV在nuScenes-360和DeepAccident-360两个数据集上进行了实验,分别取得了51.1%和36.1%的mIoU,达到了state-of-the-art的性能。这些结果表明,OneBEV能够有效地利用单张全景图像构建BEV语义地图,并且具有很强的竞争力。

🎯 应用场景

OneBEV技术可应用于自动驾驶、机器人导航、虚拟现实等领域。在自动驾驶中,它可以提供更全面、准确的环境感知信息,提高驾驶安全性。在机器人导航中,它可以帮助机器人更好地理解周围环境,实现自主导航。在虚拟现实中,它可以创建更逼真的虚拟环境,提升用户体验。该研究简化了BEV语义地图构建流程,降低了系统成本,具有广阔的应用前景。

📄 摘要(原文)

In the field of autonomous driving, Bird's-Eye-View (BEV) perception has attracted increasing attention in the community since it provides more comprehensive information compared with pinhole front-view images and panoramas. Traditional BEV methods, which rely on multiple narrow-field cameras and complex pose estimations, often face calibration and synchronization issues. To break the wall of the aforementioned challenges, in this work, we introduce OneBEV, a novel BEV semantic mapping approach using merely a single panoramic image as input, simplifying the mapping process and reducing computational complexities. A distortion-aware module termed Mamba View Transformation (MVT) is specifically designed to handle the spatial distortions in panoramas, transforming front-view features into BEV features without leveraging traditional attention mechanisms. Apart from the efficient framework, we contribute two datasets, i.e., nuScenes-360 and DeepAccident-360, tailored for the OneBEV task. Experimental results showcase that OneBEV achieves state-of-the-art performance with 51.1% and 36.1% mIoU on nuScenes-360 and DeepAccident-360, respectively. This work advances BEV semantic mapping in autonomous driving, paving the way for more advanced and reliable autonomous systems.