Benchmarking Egocentric Visual-Inertial SLAM at City Scale

📄 arXiv: 2509.26639v1 📥 PDF

作者: Anusha Krishnan, Shaohui Liu, Paul-Edouard Sarlin, Oscar Gentilhomme, David Caruso, Maurizio Monge, Richard Newcombe, Jakob Engel, Marc Pollefeys

分类: cs.CV, cs.RO

发布日期: 2025-09-30

备注: ICCV 2025


💡 一句话要点

提出城市级第一人称视觉惯性SLAM基准,揭示现有算法在复杂场景下的不足。

🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction)

关键词: 视觉惯性SLAM 第一人称视角 城市级数据集 基准测试 位姿估计

📋 核心要点

  1. 现有的SLAM基准无法充分反映第一人称视角SLAM的挑战,例如运动和视点的多样性、动态视觉内容以及长时间运行导致的传感器校准变化。
  2. 论文核心在于构建一个大规模、高精度的城市级第一人称视觉惯性SLAM数据集,并提供相应的评估基准,用于更真实地评估现有算法的性能。
  3. 实验结果表明,现有学术界最先进的SLAM系统在新的基准上表现不佳,暴露了其在复杂场景下的鲁棒性问题,为后续研究提供了改进方向。

📝 摘要(中文)

本文提出了一个新的数据集和基准,用于评估第一人称视角、多模态数据的视觉惯性SLAM系统。该数据集包含在城市中心使用眼镜式设备记录的数小时、数公里的轨迹,设备配备了多种传感器。利用测量工具获取控制点作为间接的位姿标注,这些标注具有米级精度、厘米级准确度,并且覆盖城市尺度。这使得评估极端轨迹成为可能,例如夜间行走或车辆行驶。实验表明,学术界开发的现有最先进系统在这些挑战下不够鲁棒,并识别了导致这一现象的组件。此外,设计了不同难度的赛道,以方便对不太成熟的方法进行深入分析和评估。数据集和基准已公开。

🔬 方法详解

问题定义:现有的视觉惯性SLAM(VIO)基准数据集,在规模、精度和场景复杂度上,无法充分代表第一人称视角SLAM在实际应用中遇到的挑战。例如,运动模式更加多样,视角变化剧烈,动态物体干扰严重,长时间运行还会受到传感器校准漂移的影响。这些因素导致现有算法在真实场景下的鲁棒性不足。

核心思路:论文的核心思路是构建一个大规模、高精度的城市级第一人称VIO数据集,并提供相应的评估基准。通过在真实城市环境中采集数据,并利用高精度测量工具进行位姿标注,从而更真实地模拟实际应用场景,并为算法评估提供可靠的ground truth。

技术框架:该数据集的构建主要包含以下几个阶段:1) 数据采集:使用配备多种传感器的眼镜式设备,在城市中心记录长时间、长距离的轨迹数据。2) 位姿标注:利用测量工具获取控制点,作为间接的位姿标注。这些标注具有米级精度和厘米级准确度。3) 数据集划分:设计不同难度的赛道,以方便对不同成熟度的算法进行评估。4) 基准测试:提供评估指标和工具,用于评估SLAM算法在数据集上的性能。

关键创新:该数据集的关键创新在于其规模、精度和场景复杂度。与现有数据集相比,该数据集覆盖了更大的地理范围,提供了更高精度的位姿标注,并且包含了更多具有挑战性的场景,例如夜间行走、车辆行驶等。此外,该数据集还提供了不同难度的赛道,方便研究人员进行针对性的算法评估。

关键设计:数据集采集设备包括多种传感器,例如摄像头、IMU等。位姿标注采用间接方式,通过测量控制点的位置,然后利用SLAM算法进行位姿估计。为了保证位姿标注的精度,采用了高精度的测量工具,并进行了严格的校准。数据集的划分考虑了场景的复杂度和运动模式的多样性,从而可以对算法的鲁棒性进行更全面的评估。

📊 实验亮点

实验结果表明,现有学术界最先进的SLAM系统在新的城市级第一人称VIO基准上表现不佳,尤其是在夜间行走和车辆行驶等具有挑战性的场景下。这表明现有算法在鲁棒性方面仍有很大的提升空间。该基准的发布,为研究人员提供了一个更具挑战性和真实性的评估平台,有助于推动SLAM算法的进一步发展。

🎯 应用场景

该研究成果可应用于增强现实(AR)、虚拟现实(VR)、机器人导航、可穿戴设备等领域。高精度、鲁棒的视觉惯性SLAM是这些应用的关键技术。该数据集和基准的发布,将促进相关算法的研究和发展,从而推动这些应用的普及和进步。未来,可以进一步扩展数据集的规模和场景,并探索更有效的SLAM算法。

📄 摘要(原文)

Precise 6-DoF simultaneous localization and mapping (SLAM) from onboard sensors is critical for wearable devices capturing egocentric data, which exhibits specific challenges, such as a wider diversity of motions and viewpoints, prevalent dynamic visual content, or long sessions affected by time-varying sensor calibration. While recent progress on SLAM has been swift, academic research is still driven by benchmarks that do not reflect these challenges or do not offer sufficiently accurate ground truth poses. In this paper, we introduce a new dataset and benchmark for visual-inertial SLAM with egocentric, multi-modal data. We record hours and kilometers of trajectories through a city center with glasses-like devices equipped with various sensors. We leverage surveying tools to obtain control points as indirect pose annotations that are metric, centimeter-accurate, and available at city scale. This makes it possible to evaluate extreme trajectories that involve walking at night or traveling in a vehicle. We show that state-of-the-art systems developed by academia are not robust to these challenges and we identify components that are responsible for this. In addition, we design tracks with different levels of difficulty to ease in-depth analysis and evaluation of less mature approaches. The dataset and benchmark are available at https://www.lamaria.ethz.ch.