GSLAMOT: A Tracklet and Query Graph-based Simultaneous Locating, Mapping, and Multiple Object Tracking System
作者: Shuo Wang, Yongcai Wang, Zhimin Xu, Yongyu Guo, Wanting Li, Zhe Huang, Xuewei Bai, Deying Li
分类: cs.CV
发布日期: 2024-08-17
备注: 11 pages, 9 figures, ACM MM 2024
💡 一句话要点
GSLAMOT:提出基于轨迹片段和查询图的同步定位、建图与多目标跟踪系统
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 同步定位与建图 多目标跟踪 轨迹片段图 查询图 图优化 动态环境 多模态融合
📋 核心要点
- 现有方法在动态环境中进行SLAM时,难以同时保证定位精度和对多个移动物体的精确跟踪。
- GSLAMOT通过构建轨迹片段图和查询图,并结合多准则星图关联和物体中心图优化,实现动态场景下的同步定位、建图和多目标跟踪。
- 实验表明,GSLAMOT在KITTI、Waymo等数据集上,相比现有方法,在拥挤场景下的物体跟踪和SLAM精度方面均有提升。
📝 摘要(中文)
本文提出了一种基于轨迹片段图和查询图的框架GSLAMOT,用于解决在未知环境中与移动物体交互时,同步定位、建图和跟踪多个物体3D姿态的难题。GSLAMOT利用相机和激光雷达多模态信息作为输入,并将动态场景的表示分为:用于表示静态环境的语义地图、自我代理的轨迹以及用于跟踪和预测检测到的移动物体3D姿态的在线维护的轨迹片段图(TG)。通过物体检测构建查询图(QG),用于查询和更新TG。为了精确的物体关联,提出了一种多准则星图关联(MSGA)方法,以找到QG中的检测结果与TG中预测的轨迹片段之间的匹配物体。然后,提出了一种以物体为中心的图优化(OGO)方法,以同时优化TG、语义地图和代理轨迹,并将检测到的物体三角化到地图中,以丰富地图的语义信息。解决了并行处理三个紧密耦合任务的效率问题。在KITTI、Waymo和一个模拟的交通拥堵数据集上进行了实验,实验结果表明,GSLAMOT能够在具有挑战性的场景中进行精确的拥挤物体跟踪,同时准确地进行SLAM,表现出比最先进方法更优异的性能。
🔬 方法详解
问题定义:论文旨在解决动态环境中,同步定位、建图和多目标跟踪(SLAMOT)的问题。现有方法通常难以在保证自身定位精度的同时,准确跟踪多个移动物体的3D姿态,尤其是在拥挤和复杂的场景中。现有方法在动态环境下的鲁棒性和效率方面存在挑战。
核心思路:论文的核心思路是将动态场景分解为静态环境的语义地图、自我代理的轨迹以及移动物体的轨迹片段图(Tracklet Graph, TG)。通过在线维护TG来跟踪和预测移动物体的3D姿态。利用查询图(Query Graph, QG)将每一帧的物体检测结果与TG进行关联和更新。通过物体中心图优化(Object-centric Graph Optimization, OGO)同时优化TG、语义地图和代理轨迹,实现三者之间的协同优化。
技术框架:GSLAMOT系统主要包含以下几个模块:1) 多模态数据输入:接收相机和激光雷达数据。2) 物体检测:利用检测器获取场景中的物体信息。3) 轨迹片段图(TG)维护:在线维护TG,用于跟踪和预测移动物体的3D姿态。4) 查询图(QG)构建:在每一帧构建QG,用于查询和更新TG。5) 多准则星图关联(MSGA):将QG中的检测结果与TG中的预测轨迹片段进行关联。6) 物体中心图优化(OGO):同时优化TG、语义地图和代理轨迹。
关键创新:论文的关键创新在于:1) 提出了基于轨迹片段图(TG)和查询图(QG)的动态场景表示方法,能够有效地跟踪和预测移动物体的3D姿态。2) 提出了多准则星图关联(MSGA)方法,能够更准确地将检测结果与轨迹片段进行关联。3) 提出了物体中心图优化(OGO)方法,能够同时优化TG、语义地图和代理轨迹,实现三者之间的协同优化。
关键设计:MSGA方法通过综合考虑多种准则(例如,物体类别、3D位置、速度等)来构建星图,并利用图匹配算法找到最佳的物体关联。OGO方法使用图优化框架,将TG、语义地图和代理轨迹表示为图中的节点和边,并通过最小化重投影误差、里程计误差等目标函数来优化图结构。具体参数设置和损失函数细节在论文中进行了详细描述。
🖼️ 关键图片
📊 实验亮点
实验结果表明,GSLAMOT在KITTI、Waymo和模拟交通拥堵数据集上均取得了优异的性能。例如,在KITTI数据集上,GSLAMOT在多目标跟踪精度(MOTA)和定位精度(ATE)方面均优于现有方法。在模拟交通拥堵数据集上,GSLAMOT能够有效地跟踪拥挤场景中的多个物体,并保持较高的定位精度。
🎯 应用场景
GSLAMOT可应用于自动驾驶、机器人导航、智能监控等领域。在自动驾驶中,它可以帮助车辆更好地理解周围环境,预测其他车辆和行人的行为,从而提高驾驶安全性。在机器人导航中,它可以帮助机器人在动态环境中进行自主导航和避障。在智能监控中,它可以用于跟踪和分析人群行为,提高监控效率。
📄 摘要(原文)
For interacting with mobile objects in unfamiliar environments, simultaneously locating, mapping, and tracking the 3D poses of multiple objects are crucially required. This paper proposes a Tracklet Graph and Query Graph-based framework, i.e., GSLAMOT, to address this challenge. GSLAMOT utilizes camera and LiDAR multimodal information as inputs and divides the representation of the dynamic scene into a semantic map for representing the static environment, a trajectory of the ego-agent, and an online maintained Tracklet Graph (TG) for tracking and predicting the 3D poses of the detected mobile objects. A Query Graph (QG) is constructed in each frame by object detection to query and update TG. For accurate object association, a Multi-criteria Star Graph Association (MSGA) method is proposed to find matched objects between the detections in QG and the predicted tracklets in TG. Then, an Object-centric Graph Optimization (OGO) method is proposed to simultaneously optimize the TG, the semantic map, and the agent trajectory. It triangulates the detected objects into the map to enrich the map's semantic information. We address the efficiency issues to handle the three tightly coupled tasks in parallel. Experiments are conducted on KITTI, Waymo, and an emulated Traffic Congestion dataset that highlights challenging scenarios. Experiments show that GSLAMOT enables accurate crowded object tracking while conducting SLAM accurately in challenging scenarios, demonstrating more excellent performances than the state-of-the-art methods. The code and dataset are at https://gslamot.github.io.