STONE Dataset: A Scalable Multi-Modal Surround-View 3D Traversability Dataset for Off-Road Robot Navigation

📄 arXiv: 2603.09175v1 📥 PDF

作者: Konyul Park, Daehun Kim, Jiyong Oh, Seunghoon Yu, Junseo Park, Jaehyun Park, Hongjae Shin, Hyungchan Cho, Jungho Kim, Jun Won Choi

分类: cs.RO

发布日期: 2026-03-10

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

STONE数据集:用于越野机器人导航的可扩展多模态环视3D可通行性数据集

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 越野导航 3D可通行性预测 多模态数据集 自动标注 机器人 激光雷达 深度学习

📋 核心要点

  1. 现有越野导航数据集缺乏大规模和多模态特性,限制了3D可通行性预测算法的发展。
  2. STONE数据集通过全自动标注流程,利用激光雷达数据重建地形,并结合几何属性进行可通行性标注。
  3. 该数据集提供单模态和多模态基线,为体素级3D可通行性预测建立基准,促进相关研究。

📝 摘要(中文)

可靠的越野导航需要在各种地形和感知条件下准确估计可通行区域和鲁棒的感知。然而,现有的数据集缺乏可扩展性和多模态性,这限制了3D可通行性预测的进展。本文介绍了STONE,一个用于越野导航的大规模多模态数据集。STONE提供:(1)由全自动、无标注流程生成的轨迹引导的3D可通行性地图,以及(2)全面的环视感知,包括同步的128线激光雷达、六个RGB相机和三个4D成像雷达。该数据集涵盖了广泛的环境和条件,包括白天和夜晚、草原、农田、建筑工地和湖泊。我们的自动标注流程从激光雷达扫描重建密集地形表面,提取几何属性,如坡度、海拔和粗糙度,并使用基于马氏距离的标准,在机器人轨迹之外分配可通行性标签。这种设计实现了可扩展的、几何感知的真值构建,无需手动标注。最后,我们建立了体素级3D可通行性预测的基准,并在单模态和多模态设置下提供了强大的基线。

🔬 方法详解

问题定义:现有的越野导航数据集规模有限,且通常只包含单一模态的数据,难以训练出在复杂地形和光照条件下具有鲁棒性的3D可通行性预测模型。手动标注成本高昂,难以扩展数据集规模。

核心思路:论文的核心思路是利用全自动的标注流程,从激光雷达数据中重建地形表面,提取几何特征,并基于马氏距离准则自动生成可通行性标签。这种方法避免了手动标注,从而可以高效地构建大规模数据集。

技术框架:STONE数据集的构建流程主要包括以下几个阶段:1)数据采集:使用配备128线激光雷达、RGB相机和4D雷达的机器人平台,在各种越野环境中采集数据。2)地形重建:利用激光雷达数据重建密集的地形表面。3)特征提取:从重建的地形表面提取几何特征,如坡度、海拔和粗糙度。4)可通行性标注:基于马氏距离准则,根据机器人的运动轨迹和地形特征,自动生成可通行性标签。

关键创新:该论文的关键创新在于提出了一个全自动的、无人工干预的可通行性标注流程。该流程能够高效地利用激光雷达数据和几何特征,生成高质量的可通行性标签,从而避免了手动标注的成本和局限性。

关键设计:在可通行性标注过程中,使用了基于马氏距离的准则来判断某个区域是否可通行。马氏距离考虑了地形特征之间的相关性,能够更准确地评估地形的可通行性。此外,论文还提供了单模态和多模态的基线模型,方便研究人员进行比较和分析。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文建立了体素级3D可通行性预测的基准,并提供了单模态(仅使用激光雷达)和多模态(融合激光雷达、相机和雷达数据)的基线模型。实验结果表明,多模态融合能够显著提高可通行性预测的准确率,为后续研究提供了有价值的参考。

🎯 应用场景

STONE数据集可广泛应用于越野机器人导航、自动驾驶、农业机器人、搜救机器人等领域。该数据集能够帮助研究人员开发更鲁棒、更准确的3D可通行性预测算法,从而提高机器人在复杂地形环境下的自主导航能力,具有重要的实际应用价值和未来发展潜力。

📄 摘要(原文)

Reliable off-road navigation requires accurate estimation of traversable regions and robust perception under diverse terrain and sensing conditions. However, existing datasets lack both scalability and multi-modality, which limits progress in 3D traversability prediction. In this work, we introduce STONE, a large-scale multi-modal dataset for off-road navigation. STONE provides (1) trajectory-guided 3D traversability maps generated by a fully automated, annotation-free pipeline, and (2) comprehensive surround-view sensing with synchronized 128-channel LiDAR, six RGB cameras, and three 4D imaging radars. The dataset covers a wide range of environments and conditions, including day and night, grasslands, farmlands, construction sites, and lakes. Our auto-labeling pipeline reconstructs dense terrain surfaces from LiDAR scans, extracts geometric attributes such as slope, elevation, and roughness, and assigns traversability labels beyond the robot's trajectory using a Mahalanobis-distance-based criterion. This design enables scalable, geometry-aware ground-truth construction without manual annotation. Finally, we establish a benchmark for voxel-level 3D traversability prediction and provide strong baselines under both single-modal and multi-modal settings. STONE is available at: https://konyul.github.io/STONE-dataset/