TartanGround: A Large-Scale Dataset for Ground Robot Perception and Navigation

📄 arXiv: 2505.10696v2 📥 PDF

作者: Manthan Patel, Fan Yang, Yuheng Qiu, Cesar Cadena, Sebastian Scherer, Marco Hutter, Wenshan Wang

分类: cs.RO, cs.CV

发布日期: 2025-05-15 (更新: 2025-07-30)

备注: Accepted for publication to IEEE/RSJ IROS 2025


💡 一句话要点

TartanGround:用于地面机器人感知与导航的大规模数据集

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 地面机器人 数据集 感知 导航 SLAM 占据预测 多模态数据

📋 核心要点

  1. 现有数据集难以支持地面机器人在复杂环境中进行感知和导航的训练与泛化。
  2. TartanGround通过大规模、多模态数据采集,模拟真实机器人运动,提供丰富的环境信息。
  3. 实验表明,现有方法在TartanGround上泛化能力不足,验证了数据集的价值。

📝 摘要(中文)

本文提出了TartanGround,一个大规模、多模态数据集,旨在推进地面机器人在多样化环境中感知和自主能力的发展。该数据集在各种逼真的模拟环境中采集,包括多个用于360度覆盖的RGB立体相机,以及深度、光流、立体视差、激光雷达点云、真实位姿、语义分割图像和带有语义标签的占据栅格地图。数据通过集成的自动流水线采集,该流水线生成模仿各种地面机器人平台(包括轮式和腿式机器人)运动模式的轨迹。我们在70个环境中收集了910条轨迹,产生了150万个样本。在占据预测和SLAM任务上的评估表明,在现有数据集上训练的先进方法难以在不同场景中泛化。TartanGround可以作为训练和评估各种基于学习的任务的试验台,包括占据预测、SLAM、神经场景表示、基于感知的导航等,从而推动机器人感知和自主性的发展,实现可泛化到更多样化场景的鲁棒模型。数据集和代码库可在网页https://tartanair.org/tartanground上找到。

🔬 方法详解

问题定义:现有地面机器人感知和导航方法在真实复杂环境中泛化能力不足,主要原因是缺乏足够多样化和大规模的数据集。现有数据集通常规模较小,场景单一,难以覆盖真实世界中各种复杂环境和机器人运动模式,导致模型在训练后难以适应新的环境。

核心思路:TartanGround的核心思路是通过在逼真的模拟环境中自动生成大量多样化的数据,模拟不同类型地面机器人的运动模式,并提供丰富的多模态传感器数据,从而为训练具有良好泛化能力的感知和导航模型提供基础。

技术框架:TartanGround的数据采集流程主要包括以下几个阶段:1) 环境生成:利用仿真引擎创建多样化的虚拟环境。2) 轨迹生成:设计自动轨迹生成算法,模拟轮式和腿式机器人的运动模式。3) 数据采集:使用虚拟传感器(RGB相机、深度相机、激光雷达等)采集多模态数据,并记录真实位姿和语义信息。4) 数据存储:将采集到的数据按照统一的格式进行存储和管理。

关键创新:TartanGround的关键创新在于其大规模、多模态和多样化的数据生成方式。与现有数据集相比,TartanGround在环境数量、轨迹数量和传感器模态方面都具有显著优势。此外,TartanGround还考虑了不同类型地面机器人的运动特性,使得数据集更具实用性。

关键设计:在轨迹生成方面,TartanGround设计了基于随机采样的轨迹生成算法,并结合了机器人运动学约束,以保证轨迹的合理性。在数据采集方面,TartanGround使用了多个RGB立体相机,实现了360度全方位覆盖。此外,TartanGround还提供了语义分割图像和占据栅格地图,为各种感知任务提供了丰富的标签信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文在占据预测和SLAM任务上进行了实验评估,结果表明,在现有数据集上训练的先进方法在TartanGround数据集上表现不佳,泛化能力明显不足。这突显了TartanGround数据集的价值,证明了其能够有效评估和提升地面机器人感知和导航算法的性能。

🎯 应用场景

TartanGround数据集可广泛应用于地面机器人感知和导航领域,例如:占据预测、SLAM、神经场景表示、基于感知的导航等。该数据集能够帮助研究人员训练更鲁棒、泛化能力更强的模型,从而推动地面机器人在复杂环境中的自主作业能力,例如:物流配送、安防巡逻、灾害救援等。

📄 摘要(原文)

We present TartanGround, a large-scale, multi-modal dataset to advance the perception and autonomy of ground robots operating in diverse environments. This dataset, collected in various photorealistic simulation environments includes multiple RGB stereo cameras for 360-degree coverage, along with depth, optical flow, stereo disparity, LiDAR point clouds, ground truth poses, semantic segmented images, and occupancy maps with semantic labels. Data is collected using an integrated automatic pipeline, which generates trajectories mimicking the motion patterns of various ground robot platforms, including wheeled and legged robots. We collect 910 trajectories across 70 environments, resulting in 1.5 million samples. Evaluations on occupancy prediction and SLAM tasks reveal that state-of-the-art methods trained on existing datasets struggle to generalize across diverse scenes. TartanGround can serve as a testbed for training and evaluation of a broad range of learning-based tasks, including occupancy prediction, SLAM, neural scene representation, perception-based navigation, and more, enabling advancements in robotic perception and autonomy towards achieving robust models generalizable to more diverse scenarios. The dataset and codebase are available on the webpage: https://tartanair.org/tartanground