Towards Autonomous Indoor Parking: A Globally Consistent Semantic SLAM System and A Semantic Localization Subsystem
作者: Yichen Sha, Siting Zhu, Hekui Guo, Zhong Wang, Hesheng Wang
分类: cs.RO
发布日期: 2024-10-16 (更新: 2025-07-11)
备注: IROS 2025
💡 一句话要点
提出全局一致语义SLAM系统,实现复杂室内停车场自主泊车
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 语义SLAM 自主泊车 因子图优化 室内定位 多传感器融合
📋 核心要点
- 现有SLAM方法在复杂停车场环境中,难以同时保证定位精度和语义信息的准确性,限制了自主泊车的应用。
- GCSLAM通过引入语义约束因子图,融合多传感器数据和BEV语义信息,优化位姿和语义地图,提升了全局一致性。
- SF-Loc利用GCSLAM构建的语义地图进行定位,并结合配准结果和里程计信息,实现了更鲁棒的定位效果。
📝 摘要(中文)
本文提出了一种全局一致的语义SLAM系统(GCSLAM)和一个语义融合定位子系统(SF-Loc),旨在复杂停车场环境中实现精确的语义地图构建和鲁棒的定位。系统输入包括视觉相机(前视和环视)、IMU和轮速编码器数据。GCSLAM引入了语义约束因子图,用于优化位姿和语义地图,其中包含了基于多传感器数据和BEV(鸟瞰图)语义信息的创新误差项。此外,GCSLAM集成了全局车位管理模块,用于存储和管理车位观测。SF-Loc利用GCSLAM构建的语义地图进行基于地图的定位,并将配准结果和里程计位姿与一种新的因子图相结合。在两个真实世界数据集上的实验表明,我们的系统优于现有的SLAM系统,在鲁棒的全局定位和精确的语义地图构建方面表现出卓越的能力。
🔬 方法详解
问题定义:现有SLAM方法在复杂室内停车场环境中,面临着定位精度不足和语义信息缺失的问题。停车场环境的复杂性,如光照变化、动态物体干扰以及缺乏明显的几何特征,使得传统的SLAM方法难以获得鲁棒和精确的定位结果。此外,缺乏语义信息的地图难以支持高级的自主泊车任务,例如车位识别和路径规划。
核心思路:本文的核心思路是将语义信息融入到SLAM框架中,利用语义信息来约束位姿估计和地图构建,从而提高SLAM系统的鲁棒性和精度。具体来说,通过引入语义约束因子图,将多传感器数据和BEV语义信息融合在一起,优化位姿和语义地图。同时,利用构建的语义地图进行定位,进一步提高定位的准确性。
技术框架:该系统主要由两个部分组成:GCSLAM和SF-Loc。GCSLAM负责构建全局一致的语义地图,包括前端数据处理、语义分割、因子图优化和全局车位管理等模块。SF-Loc则利用GCSLAM构建的语义地图进行定位,包括地图加载、特征提取、配准和因子图优化等模块。整个系统以视觉相机、IMU和轮速编码器作为输入,输出全局一致的语义地图和车辆的精确位姿。
关键创新:该论文的关键创新在于以下几个方面:1) 提出了语义约束因子图,将多传感器数据和BEV语义信息融合在一起,优化位姿和语义地图;2) 引入了全局车位管理模块,用于存储和管理车位观测,提高了地图的完整性和准确性;3) 提出了SF-Loc,利用语义地图进行定位,提高了定位的鲁棒性和精度。
关键设计:在GCSLAM中,语义约束因子图的关键在于设计合适的误差项,例如,基于BEV语义信息的车位对齐误差项,用于约束车位之间的相对位置关系。在SF-Loc中,因子图的关键在于设计合适的因子,例如,基于语义特征的配准因子,用于约束车辆的位姿与地图之间的关系。此外,全局车位管理模块采用了一种基于哈希表的存储结构,用于快速检索和更新车位信息。
🖼️ 关键图片
📊 实验亮点
在两个真实世界数据集上的实验结果表明,该系统在全局定位精度和语义地图构建方面均优于现有的SLAM系统。具体性能数据未知,但摘要强调了其在鲁棒全局定位和精确语义地图构建方面的卓越能力。
🎯 应用场景
该研究成果可应用于室内停车场自主泊车系统,提升泊车效率和用户体验。此外,该技术还可扩展到其他室内环境,如商场、仓库等,实现自主导航、机器人巡检等功能,具有广阔的应用前景和商业价值。
📄 摘要(原文)
We propose a globally consistent semantic SLAM system (GCSLAM) and a semantic-fusion localization subsystem (SF-Loc), which achieves accurate semantic mapping and robust localization in complex parking lots. Visual cameras (front-view and surround-view), IMU, and wheel encoder form the input sensor configuration of our system. The first part of our work is GCSLAM. GCSLAM introduces a semantic-constrained factor graph for the optimization of poses and semantic map, which incorporates innovative error terms based on multi-sensor data and BEV (bird's-eye view) semantic information. Additionally, GCSLAM integrates a Global Slot Management module that stores and manages parking slot observations. SF-Loc is the second part of our work, which leverages the semantic map built by GCSLAM to conduct map-based localization. SF-Loc integrates registration results and odometry poses with a novel factor graph. Our system demonstrates superior performance over existing SLAM on two real-world datasets, showing excellent capabilities in robust global localization and precise semantic mapping.