Neural Semantic Map-Learning for Autonomous Vehicles

📄 arXiv: 2410.07780v1 📥 PDF

作者: Markus Herb, Nassir Navab, Federico Tombari

分类: cs.RO, cs.CV

发布日期: 2024-10-10

备注: Accepted at 2024 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS 2024)


💡 一句话要点

提出基于神经语义地图学习的自动驾驶车辆地图构建方法

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 神经语义地图 自动驾驶 地图构建 众包数据 神经符号距离场

📋 核心要点

  1. 现有自动驾驶地图构建方法难以有效融合来自多个车辆的噪声和不完整的局部地图。
  2. 提出一种基于神经符号距离场的地图融合方法,利用稀疏特征网格提高效率,并引入置信度建模不确定性。
  3. 实验表明,该方法在姿态对齐和重建方面优于现有方法,并验证了多会话映射的有效性。

📝 摘要(中文)

自动驾驶车辆需要详细的地图才能在交通中可靠地行驶,并且需要保持地图的更新以确保安全运行。一种有前景的使地图适应不断变化的道路网络的方法是使用来自车队的众包数据。本文提出了一种地图构建系统,该系统在中央实例融合从车队收集的局部子地图,以生成道路环境的连贯地图,包括可行驶区域、车道线、电线杆、障碍物等,并以3D网格的形式呈现。每辆车都以轻量级网格的形式贡献局部重建的子地图,使我们的方法适用于各种重建方法和传感器模式。我们的方法使用场景特定的神经符号距离场联合对齐和合并噪声和不完整的局部子地图,该距离场使用子地图网格进行监督,以预测融合的环境表示。我们利用内存高效的稀疏特征网格来扩展到大面积区域,并引入置信度分数来模拟场景重建中的不确定性。我们的方法在两个具有不同局部映射方法的数据集上进行了评估,与现有方法相比,显示出改进的姿态对齐和重建效果。此外,我们还展示了多会话映射的优势,并研究了实现自动驾驶车辆高保真地图学习所需的数据量。

🔬 方法详解

问题定义:自动驾驶车辆需要精确且最新的地图,但现有方法难以有效融合来自多个车辆的、带有噪声和不完整信息的局部子地图,从而影响地图的质量和可靠性。现有方法在处理大规模场景时也面临效率瓶颈。

核心思路:利用神经符号距离场(Neural Signed Distance Field, SDF)作为场景的隐式表示,通过学习SDF来融合多个局部子地图。SDF能够有效地表示复杂的几何形状,并且可以通过神经网络进行学习和优化。通过联合对齐和合并局部子地图,可以生成一个连贯且完整的全局地图。

技术框架:该方法包含以下主要步骤:1) 每辆车独立构建局部子地图,并将其表示为轻量级网格。2) 将所有局部子地图上传到中央服务器。3) 在中央服务器上,使用神经SDF来融合这些子地图。具体来说,首先初始化一个神经SDF网络,然后使用局部子地图的网格数据来训练该网络,使其能够预测场景中每个点的符号距离值。4) 在训练过程中,同时优化局部子地图的姿态,以实现更好的对齐。5) 最后,从训练好的神经SDF中提取出融合后的全局地图。

关键创新:该方法的核心创新在于使用神经SDF来融合局部子地图。与传统的地图融合方法相比,神经SDF能够更好地处理噪声和不完整的数据,并且可以学习到场景的复杂几何形状。此外,该方法还引入了稀疏特征网格来提高内存效率,使其能够扩展到大规模场景。

关键设计:该方法使用一个多层感知机(MLP)作为神经SDF网络,输入是空间中的一个3D点坐标,输出是该点到场景表面的符号距离值。损失函数包括SDF损失和姿态损失。SDF损失用于约束网络预测的符号距离值与真实值之间的差异,姿态损失用于约束局部子地图的姿态与全局地图之间的对齐程度。此外,该方法还引入了一个置信度分数来建模场景重建中的不确定性,并将其作为损失函数的权重。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该方法在两个数据集上进行了评估,结果表明,与现有方法相比,该方法在姿态对齐和重建方面均有显著提升。具体来说,该方法能够更准确地对齐局部子地图,并生成更完整、更准确的全局地图。此外,实验还验证了多会话映射的有效性,表明通过融合来自多个会话的数据,可以进一步提高地图的质量。

🎯 应用场景

该研究成果可应用于自动驾驶车辆的高精度地图构建,为车辆提供准确的环境感知信息,提高行驶安全性和可靠性。此外,该方法还可用于城市建模、三维重建等领域,具有广泛的应用前景和实际价值。未来,可以进一步研究如何将该方法应用于动态环境,并提高地图的更新速度。

📄 摘要(原文)

Autonomous vehicles demand detailed maps to maneuver reliably through traffic, which need to be kept up-to-date to ensure a safe operation. A promising way to adapt the maps to the ever-changing road-network is to use crowd-sourced data from a fleet of vehicles. In this work, we present a mapping system that fuses local submaps gathered from a fleet of vehicles at a central instance to produce a coherent map of the road environment including drivable area, lane markings, poles, obstacles and more as a 3D mesh. Each vehicle contributes locally reconstructed submaps as lightweight meshes, making our method applicable to a wide range of reconstruction methods and sensor modalities. Our method jointly aligns and merges the noisy and incomplete local submaps using a scene-specific Neural Signed Distance Field, which is supervised using the submap meshes to predict a fused environment representation. We leverage memory-efficient sparse feature-grids to scale to large areas and introduce a confidence score to model uncertainty in scene reconstruction. Our approach is evaluated on two datasets with different local mapping methods, showing improved pose alignment and reconstruction over existing methods. Additionally, we demonstrate the benefit of multi-session mapping and examine the required amount of data to enable high-fidelity map learning for autonomous vehicles.