ETHcavation: A Dataset and Pipeline for Panoptic Scene Understanding and Object Tracking in Dynamic Construction Environments

作者: Lorenzo Terenzi, Julian Nubert, Pol Eyschen, Pascal Roth, Simin Fei, Edo Jelavic, Marco Hutter

分类: cs.RO

发布日期: 2024-10-05

备注: 9 pages, 7 figures, 4 tables, submitted to 2024 Australasian Conference on Robotics and Automation (ACRA 2024)

🔗 代码/项目: GITHUB | PROJECT_PAGE

💡 一句话要点

ETHcavation：提出动态建筑环境下的全景场景理解与目标跟踪数据集及流程。

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 全景场景理解 动态环境 建筑工地 目标跟踪 激光雷达建图

📋 核心要点

建筑工地环境复杂且动态，现有自主系统难以有效理解和应对其中的挑战。
该研究融合2D全景分割与3D激光雷达建图，结合卡尔曼滤波跟踪，实现动态场景理解。
通过微调预训练模型和动态全景建图，并在自主导航中验证了系统的有效性。

📝 摘要（中文）

本文提出了一种综合性的全景场景理解方案，旨在应对建筑工地等非结构化环境中动态行为体的挑战。该方案集成了2D全景分割与3D激光雷达建图，通过融合语义和几何数据实时生成详细的环境表示，并采用基于卡尔曼滤波的跟踪方法进行动态目标检测。此外，本文还提出了一种微调方法，利用少量特定领域的样本，使大型预训练全景分割模型适应建筑工地应用。为此，我们发布了一个首创的包含502张手工标注的全景分割图像数据集。同时，提出了一种动态全景建图技术，以增强非结构化环境中的场景理解。最后，通过自主导航案例研究，展示了该系统在动态场景中利用实时RRT*进行反应式路径规划的应用。数据集和训练部署代码已公开。

🔬 方法详解

问题定义：论文旨在解决建筑工地等动态、非结构化环境中，自主系统难以进行有效场景理解和目标跟踪的问题。现有方法在处理此类环境时，往往面临精度不足、鲁棒性差等问题，难以满足自主导航等应用的需求。

核心思路：论文的核心思路是将2D全景分割与3D激光雷达建图相结合，利用全景分割提供丰富的语义信息，激光雷达提供精确的几何信息，并通过卡尔曼滤波进行动态目标跟踪，从而实现对动态建筑工地环境的全面理解。此外，通过微调预训练模型，降低了对大量标注数据的依赖。

技术框架：整体框架包含以下几个主要模块：1) 数据采集：使用相机和激光雷达获取建筑工地环境的图像和点云数据。2) 2D全景分割：利用预训练的全景分割模型（如Mask R-CNN）对图像进行分割，得到像素级别的语义和实例信息。3) 3D激光雷达建图：使用激光雷达数据构建环境的三维地图。4) 数据融合：将2D全景分割结果投影到3D地图上，融合语义和几何信息。5) 动态目标跟踪：使用卡尔曼滤波对动态目标（如工人、车辆）进行跟踪。6) 动态全景建图：根据动态目标的信息更新地图，实现动态场景的表示。

关键创新：论文的关键创新点在于：1) 提出了一个针对建筑工地环境的全景分割数据集，填补了该领域的空白。2) 提出了一种动态全景建图技术，能够实时更新地图，适应动态环境的变化。3) 提出了一种微调方法，能够利用少量领域特定数据，使预训练模型适应建筑工地应用。

关键设计：微调方法使用了少量建筑工地图像进行训练，损失函数包括分割损失和分类损失。卡尔曼滤波器的状态向量包含目标的位置、速度等信息，观测模型根据激光雷达和视觉信息进行更新。动态全景建图使用体素栅格地图表示环境，并根据动态目标的运动信息更新体素的占据概率。

🖼️ 关键图片

📊 实验亮点

论文发布了一个包含502张手工标注的全景分割图像数据集，为建筑工地场景理解提供了重要的数据基础。通过微调预训练模型，在建筑工地数据集上取得了良好的分割效果，相较于直接应用通用模型，精度有显著提升。在自主导航实验中，系统能够实时生成可行的路径，并避开动态障碍物，验证了其在实际应用中的有效性。

🎯 应用场景

该研究成果可应用于建筑工地的自主导航、安全监控、资源管理等领域。例如，自主机器人可以利用该系统进行路径规划，避开障碍物和动态目标，提高工作效率和安全性。此外，该系统还可以用于实时监控工地人员和设备的位置，优化资源分配，提高管理效率。未来，该技术有望推广到其他动态、非结构化环境中，如矿山、仓库等。

📄 摘要（原文）

Construction sites are challenging environments for autonomous systems due to their unstructured nature and the presence of dynamic actors, such as workers and machinery. This work presents a comprehensive panoptic scene understanding solution designed to handle the complexities of such environments by integrating 2D panoptic segmentation with 3D LiDAR mapping. Our system generates detailed environmental representations in real-time by combining semantic and geometric data, supported by Kalman Filter-based tracking for dynamic object detection. We introduce a fine-tuning method that adapts large pre-trained panoptic segmentation models for construction site applications using a limited number of domain-specific samples. For this use case, we release a first-of-its-kind dataset of 502 hand-labeled sample images with panoptic annotations from construction sites. In addition, we propose a dynamic panoptic mapping technique that enhances scene understanding in unstructured environments. As a case study, we demonstrate the system's application for autonomous navigation, utilizing real-time RRT* for reactive path planning in dynamic scenarios. The dataset (https://leggedrobotics.github.io/panoptic-scene-understanding.github.io/) and code (https://github.com/leggedrobotics/rsl_panoptic_mapping) for training and deployment are publicly available to support future research.

ETHcavation: A Dataset and Pipeline for Panoptic Scene Understanding and Object Tracking in Dynamic Construction Environments

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理