MAN TruckScenes: A multimodal dataset for autonomous trucking in diverse conditions

📄 arXiv: 2407.07462v2 📥 PDF

作者: Felix Fent, Fabian Kuttenreich, Florian Ruch, Farija Rizwin, Stefan Juergens, Lorenz Lechermann, Christian Nissler, Andrea Perl, Ulrich Voll, Min Yan, Markus Lienkamp

分类: cs.CV, cs.AI, cs.LG

发布日期: 2024-07-10 (更新: 2024-11-11)

备注: Accepted to NeurIPS 2024 Datasets and Benchmarks Track


💡 一句话要点

发布MAN TruckScenes多模态数据集,助力自动驾驶卡车在复杂环境下的感知研究。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自动驾驶卡车 多模态数据集 3D目标检测 4D雷达 传感器融合 环境感知 数据集标注

📋 核心要点

  1. 自动驾驶卡车依赖精确的环境感知,但缺乏针对卡车场景的大型多模态数据集,阻碍了相关算法的开发和验证。
  2. MAN TruckScenes数据集旨在提供卡车特有的挑战场景,包含多模态传感器数据和高质量的3D边界框标注,促进自动驾驶卡车感知算法的研究。
  3. 该数据集包含多种环境条件下的740多个场景,提供了全面的数据集分析和基线结果,并公开了数据集和开发工具包。

📝 摘要(中文)

自动驾驶卡车是一项极具前景的技术,能够显著影响现代物流和环境。确保其在公共道路上的安全性是主要任务之一,这需要对环境进行精确感知。为了实现这一目标,机器学习方法依赖于大型数据集,但迄今为止,还没有专门为自动驾驶卡车提供此类数据集。本文介绍了MAN TruckScenes,这是首个用于自动驾驶卡车的多模态数据集。MAN TruckScenes使研究界能够首次接触到卡车特有的挑战,例如拖车遮挡、新的传感器视角和终端环境。它包含超过740个场景,每个场景持续20秒,涵盖多种不同的环境条件。传感器组包括4个摄像头、6个激光雷达、6个雷达传感器、2个IMU和一个高精度GNSS。数据集的3D边界框经过手动标注和仔细审查,以达到高质量标准。边界框可用于27个对象类别、15个属性,范围超过230米。这些场景根据34个不同的场景标签进行标记,并且所有对象在整个场景中都被跟踪,以促进广泛的应用。此外,MAN TruckScenes是第一个提供具有360°覆盖的4D雷达数据的数据集,因此也是最大的带有标注3D边界框的雷达数据集。最后,我们提供了广泛的数据集分析和基线结果。该数据集、开发工具包等可在网上获得。

🔬 方法详解

问题定义:现有自动驾驶数据集主要面向乘用车,缺乏针对卡车特有场景(如拖车遮挡、终端环境)的数据,导致现有算法在卡车上的性能不佳。此外,缺乏高质量的多模态数据(尤其是4D雷达数据)限制了算法的鲁棒性和泛化能力。

核心思路:构建一个大规模、多模态、高质量的自动驾驶卡车数据集,包含多种传感器数据和详细的标注信息,以促进自动驾驶卡车感知算法的研究和开发。通过提供卡车特有的挑战场景,弥补现有数据集的不足。

技术框架:该数据集包含超过740个场景,每个场景持续20秒。传感器组包括4个摄像头、6个激光雷达、6个雷达传感器、2个IMU和一个高精度GNSS。数据经过同步和校准。数据集提供了27个对象类别的3D边界框标注,以及15个属性。所有对象在整个场景中都被跟踪。场景根据34个不同的场景标签进行标记。

关键创新:MAN TruckScenes是首个专门为自动驾驶卡车设计的多模态数据集。它是第一个提供具有360°覆盖的4D雷达数据的数据集,也是最大的带有标注3D边界框的雷达数据集。该数据集包含了卡车特有的挑战场景,例如拖车遮挡和终端环境。

关键设计:数据集的3D边界框经过手动标注和仔细审查,以确保高质量。标注范围超过230米。数据集提供了广泛的数据集分析和基线结果,方便研究人员使用。数据集和开发工具包公开可用。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MAN TruckScenes数据集是首个提供4D雷达数据且带有3D边界框标注的自动驾驶卡车数据集,规模最大。它包含740多个场景,涵盖多种环境条件,并提供高质量的3D边界框标注,标注范围超过230米。论文提供了数据集的详细分析和基线结果,为后续研究提供了参考。

🎯 应用场景

该数据集可用于训练和评估自动驾驶卡车感知算法,例如目标检测、跟踪、语义分割等。它还可以用于研究多模态传感器融合、场景理解和行为预测等问题。该数据集的发布将促进自动驾驶卡车技术的发展,并加速其在物流和运输领域的应用。

📄 摘要(原文)

Autonomous trucking is a promising technology that can greatly impact modern logistics and the environment. Ensuring its safety on public roads is one of the main duties that requires an accurate perception of the environment. To achieve this, machine learning methods rely on large datasets, but to this day, no such datasets are available for autonomous trucks. In this work, we present MAN TruckScenes, the first multimodal dataset for autonomous trucking. MAN TruckScenes allows the research community to come into contact with truck-specific challenges, such as trailer occlusions, novel sensor perspectives, and terminal environments for the first time. It comprises more than 740 scenes of 20s each within a multitude of different environmental conditions. The sensor set includes 4 cameras, 6 lidar, 6 radar sensors, 2 IMUs, and a high-precision GNSS. The dataset's 3D bounding boxes were manually annotated and carefully reviewed to achieve a high quality standard. Bounding boxes are available for 27 object classes, 15 attributes, and a range of more than 230m. The scenes are tagged according to 34 distinct scene tags, and all objects are tracked throughout the scene to promote a wide range of applications. Additionally, MAN TruckScenes is the first dataset to provide 4D radar data with 360° coverage and is thereby the largest radar dataset with annotated 3D bounding boxes. Finally, we provide extensive dataset analysis and baseline results. The dataset, development kit, and more are available online.