CAVERS: Multimodal SLAM Data from a Natural Karstic Cave with Ground Truth Motion Capture

作者: Giacomo Franchini, David Rodríguez-Martínez, Alfonso Martínez-Petersen, C. J. Pérez-del-Pulgar, Marcello Chiaberge

分类: cs.RO

发布日期: 2026-04-16

备注: 8 pages, 5 figures, preprint version

🔗 代码/项目: GITHUB

💡 一句话要点

CAVERS：提供含地面真值运动捕捉的天然喀斯特洞穴多模态SLAM数据集

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: SLAM数据集 多模态数据 喀斯特洞穴 地面真值 机器人导航 视觉惯性里程计 热成像 LiDAR

📋 核心要点

天然喀斯特洞穴环境为自主机器人导航带来独特挑战，如光照不足、几何结构复杂等，现有数据集难以满足相关研究需求。
CAVERS数据集通过集成RGB-D相机、热像仪和LiDAR等多模态传感器，并利用运动捕捉系统提供高精度地面真值，旨在填补这一空白。
论文对多种SLAM算法进行了基准测试，验证了数据集的有效性，为洞穴环境下的机器人感知和导航研究提供了宝贵资源。

📝 摘要（中文）

本文提出了CAVERS，一个在西班牙Cueva de la Victoria的两个结构不同的房间中采集的多模态数据集。该数据集旨在解决在天然喀斯特洞穴中自主机器人面临的感知和导航挑战，这些挑战与矿井或隧道中遇到的挑战截然不同，包括不规则的几何形状、反射性湿表面、接近零的环境光以及复杂的 branching passages。该数据集包含24个序列，总计约335 GB的记录数据。传感器套件包括Intel RealSense D435i RGB-D-I相机、Optris PI640i近红外热像仪和Velodyne VLP-16 LiDAR，在完全黑暗和人工照明下，手持和安装在轮式漫游车上操作。对于大多数序列，通过直接安装在洞穴内的Optirack运动捕捉系统提供毫米级精度的6自由度地面真值姿态和速度（120 Hz）。论文对七种最先进的SLAM和里程计算法（涵盖视觉、视觉惯性、热惯性和基于LiDAR的pipeline）以及3D重建pipeline进行了基准测试，证明了该数据集的可用性。

🔬 方法详解

问题定义：论文旨在解决缺乏适用于天然喀斯特洞穴环境的、具有多模态传感器数据和高精度地面真值的数据集的问题。现有数据集通常侧重于结构化环境（如矿井或隧道），无法充分反映喀斯特洞穴的复杂性和挑战性，如不规则几何形状、低光照条件和反射表面。

核心思路：论文的核心思路是构建一个包含多种传感器数据（RGB-D、热成像、LiDAR）并提供高精度地面真值的数据集，从而为开发和评估适用于喀斯特洞穴环境的SLAM和导航算法提供基础。通过提供多种模态的数据，研究人员可以探索不同传感器组合的性能，并开发更鲁棒的感知系统。

技术框架：CAVERS数据集的采集流程包括：1) 在两个具有不同结构的喀斯特洞穴房间中进行数据采集；2) 使用Intel RealSense D435i RGB-D-I相机、Optris PI640i近红外热像仪和Velodyne VLP-16 LiDAR等多模态传感器；3) 使用Optirack运动捕捉系统获取毫米级精度的6自由度地面真值姿态和速度；4) 提供手持和轮式漫游车两种操作模式；5) 在完全黑暗和人工照明两种条件下采集数据。

关键创新：该数据集的关键创新在于其针对天然喀斯特洞穴环境的特殊性，提供了多模态传感器数据和高精度地面真值。此外，数据集还考虑了不同的操作模式（手持和漫游车）和光照条件（黑暗和人工照明），从而增加了数据集的通用性和适用性。

关键设计：数据集的关键设计包括：1) 选择合适的传感器组合，以覆盖不同的感知模态；2) 使用高精度的运动捕捉系统获取地面真值；3) 在不同的环境条件下进行数据采集，以增加数据集的多样性；4) 提供清晰的数据格式和文档，方便研究人员使用。

🖼️ 关键图片

📊 实验亮点

论文对七种最先进的SLAM和里程计算法进行了基准测试，涵盖视觉、视觉惯性、热惯性和基于LiDAR的pipeline，以及3D重建pipeline。实验结果展示了不同算法在CAVERS数据集上的性能表现，为研究人员选择合适的算法提供了参考。具体性能数据和提升幅度在论文中详细给出。

🎯 应用场景

该数据集可广泛应用于洞穴探险机器人、搜救机器人、地质勘探机器人等领域。通过利用该数据集，研究人员可以开发更鲁棒、更可靠的SLAM和导航算法，从而使机器人能够在复杂、未知的洞穴环境中自主运行，执行各种任务，例如绘制洞穴地图、寻找失踪人员或评估地质结构。

📄 摘要（原文）

Autonomous robots operating in natural karstic caves face perception and navigation challenges that are qualitatively distinct from those encountered in mines or tunnels: irregular geometry, reflective wet surfaces, near-zero ambient light, and complex branching passages. Yet publicly available datasets targeting this environment remain scarce and offer limited sensing modalities and environmental diversity. We present CAVERS, a multimodal dataset acquired in two structurally distinct rooms of Cueva de la Victoria, Málaga, Spain, comprising 24 sequences totaling approximately 335 GB of recorded data. The sensor suite combines an Intel RealSense D435i RGB-D-I camera, an Optris PI640i near-IR thermal camera, and a Velodyne VLP-16 LiDAR, operated both handheld and mounted on a wheeled rover under full darkness and artificial illumination. For most of the sequences, mm-accurate 6-DoF ground truth pose and velocity at 120 Hz are provided by an Optirack motion capture system installed directly inside the cave. We benchmark seven state-of-the-art SLAM and odometry algorithms spanning visual, visual-inertial, thermal-inertial, and LiDAR-based pipelines, as well as a 3D reconstruction pipeline, demonstrating the dataset's usability. %The dataset and all supplementary material are publicly available at: https://github.com/spaceuma/cavers.

CAVERS: Multimodal SLAM Data from a Natural Karstic Cave with Ground Truth Motion Capture

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理