CARD: A Multi-Modal Automotive Dataset for Dense 3D Reconstruction in Challenging Road Topography

作者: Gasser Elazab, Frank Neuhaus, Tilman Koß, Malte Splietker, Aditya Date, Michael Unterreiner, Maximilian Jansen, Olaf Hellwich

分类: cs.CV

发布日期: 2026-05-06

备注: Accepted at CVPR 2026 (Highlight). Project page: https://card.content.cariad.digital

🔗 代码/项目: HUGGINGFACE

💡 一句话要点

CARD：用于复杂地形下稠密3D重建的多模态汽车数据集

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 自动驾驶 多模态数据集 三维重建 深度估计 激光雷达 道路不规则性 复杂地形

📋 核心要点

现有自动驾驶数据集主要集中在平坦道路上，缺乏复杂地形数据，限制了算法在真实世界中的泛化能力。
CARD数据集通过多激光雷达融合，提供高密度、高质量的3D真值，覆盖多种复杂路面，为深度估计和补全提供可靠依据。
该数据集包含2D边界框标注，针对道路不规则性，并建立了标准评估协议，为相关算法的性能评估提供基准。

📝 摘要（中文）

为了使自动驾驶能够在各种路面上安全运行，我们提出了CARD，一个多模态驾驶数据集，它提供了在连续序列上的准稠密3D真值，这些序列包含丰富的减速带、坑洼、不规则表面和越野路段。我们的传感器套件包括同步的全局快门立体相机、前后激光雷达、来自激光雷达惯性里程计的6自由度姿态、每个车轮的运动轨迹以及完整的校准。值得注意的是，我们的多激光雷达融合为每帧生成约50万个有效深度像素，比KITTI Depth Completion多约6.5倍，比其他公共驾驶数据集平均多10倍。该数据集跨越德国和意大利约110公里和4.7小时。此外，CARD还提供了针对道路地形不规则性的2D边界框，从而能够对几何和感知任务进行准确的基准测试。此外，我们为CARD上的道路表面不规则性建立了一个标准化的评估协议，并对最先进的深度估计模型进行基准测试，以提供强大的基线。CARD数据集托管在https://huggingface.co/CARD-Data。

🔬 方法详解

问题定义：现有自动驾驶数据集主要集中在结构化道路环境，缺乏对非结构化和复杂地形（如坑洼、减速带、越野路段）的覆盖。此外，现有数据集提供的深度信息通常是稀疏的，不足以支持对道路表面几何形状的精细评估，这限制了深度估计和补全算法的性能提升。

核心思路：CARD数据集的核心思路是通过融合多个传感器（包括立体相机和多个激光雷达）的数据，提供高密度、高质量的3D真值，从而克服现有数据集的局限性。通过多激光雷达的融合，显著提高了深度信息的密度，使得能够更准确地描述复杂路面的几何形状。

技术框架：CARD数据集的采集系统包括：1) 同步的全局快门立体相机，用于提供图像信息；2) 前后激光雷达，用于获取点云数据；3) 激光雷达惯性里程计，用于提供6自由度姿态信息；4) 每个车轮的运动轨迹，用于辅助定位和建图。通过传感器标定和数据同步，将不同传感器的数据融合在一起，生成准稠密的3D真值。数据集还提供了针对道路不规则性的2D边界框标注。

关键创新：CARD数据集的关键创新在于其多激光雷达融合策略，能够生成高密度的3D真值，显著优于现有数据集。此外，该数据集还提供了针对道路不规则性的标注和标准化的评估协议，为相关算法的评估和比较提供了便利。

关键设计：CARD数据集的关键设计包括：1) 使用全局快门相机，减少运动模糊；2) 使用多个激光雷达，提高深度信息的密度和覆盖范围；3) 进行精确的传感器标定和数据同步，保证数据融合的准确性；4) 提供针对道路不规则性的2D边界框标注，方便相关算法的训练和评估；5) 建立标准化的评估协议，为算法性能比较提供基准。

🖼️ 关键图片

📊 实验亮点

CARD数据集通过多激光雷达融合，实现了每帧约50万个有效深度像素，比KITTI Depth Completion数据集多6.5倍，比其他公共驾驶数据集平均多10倍。此外，论文还基于CARD数据集对现有深度估计模型进行了基准测试，为后续研究提供了参考。

🎯 应用场景

CARD数据集可广泛应用于自动驾驶、机器人导航、三维重建等领域。它能够促进深度估计、三维场景理解、路径规划等算法的研发，提高自动驾驶系统在复杂路况下的安全性和可靠性。此外，该数据集还可以用于训练和评估针对道路不规则性的检测和分割算法，为智能交通系统的发展提供支持。

📄 摘要（原文）

Autonomous driving must operate across diverse surfaces to enable safe mobility. However, most driving datasets are captured on well-paved flat roads. Moreover, recent driving datasets primarily provide sparse LiDAR ground truth for images, which is insufficient for assessing fine-grained geometry in depth estimation and completion. To address these gaps, we introduce CARD, a multi-modal driving dataset that delivers quasi-dense 3D ground truth across continuous sequences rich in speed bumps, potholes, irregular surfaces and off-road segments. Our sensor suite includes synchronized global-shutter stereo cameras, front and rear LiDARs, 6-DoF poses from LiDAR-inertial odometry, per-wheel motion traces, and full calibration. Notably, our multi-LiDAR fusion yields ~500K valid depth pixels per frame, about 6.5x more than KITTI Depth Completion and 10x more on average than other public driving datasets. The dataset spans ~110 km and 4.7 hours across Germany and Italy. In addition, CARD provides 2D bounding boxes targeting road-topography irregularities, enabling accurate benchmarking for both geometry and perception tasks. Furthermore, we establish a standardized evaluation protocol for road surface irregularities on CARD and benchmark state-of-the-art depth estimation models to provide strong baselines. The CARD dataset is hosted on https://huggingface.co/CARD-Data.

CARD: A Multi-Modal Automotive Dataset for Dense 3D Reconstruction in Challenging Road Topography

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理