Benchmarking Egocentric Visual-Inertial SLAM at City Scale
作者: Anusha Krishnan, Shaohui Liu, Paul-Edouard Sarlin, Oscar Gentilhomme, David Caruso, Maurizio Monge, Richard Newcombe, Jakob Engel, Marc Pollefeys
分类: cs.CV, cs.RO
发布日期: 2025-09-30
备注: ICCV 2025
💡 一句话要点
提出城市级第一人称视觉惯性SLAM基准,挑战现有算法在复杂环境下的鲁棒性。
🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction)
关键词: 视觉惯性SLAM 第一人称视角 城市尺度 数据集 基准测试 多模态数据 定位精度
📋 核心要点
- 现有的SLAM基准无法充分反映第一人称视角SLAM的挑战,例如运动和视角的更多样性、普遍存在的动态视觉内容以及受时变传感器校准影响的长会话。
- 论文核心在于构建一个大规模、高精度的城市级第一人称视觉惯性SLAM数据集,并提供相应的评估基准,从而推动相关算法的进步。
- 实验结果表明,现有先进SLAM系统在所提出的数据集上表现出鲁棒性不足的问题,为后续研究提供了明确的改进方向。
📝 摘要(中文)
本文提出了一个新的数据集和基准,用于评估第一人称视角、多模态数据的视觉惯性SLAM系统。该数据集包含在城市中心使用眼镜式设备记录的数小时、数公里的轨迹,设备配备了多种传感器。利用测量工具获取控制点作为间接的位姿标注,这些标注具有厘米级的精度,并且覆盖了城市尺度。这使得评估极端轨迹成为可能,例如夜间行走或车辆行驶。实验表明,学术界开发的先进系统在这些挑战面前表现不佳,并识别了导致此问题的原因。此外,设计了不同难度的赛道,以方便对不太成熟的方法进行深入分析和评估。数据集和基准已公开。
🔬 方法详解
问题定义:现有的SLAM基准数据集在规模、精度和场景复杂性方面无法满足第一人称视觉惯性SLAM的需求,尤其是在城市环境中,动态物体、光照变化和长时间运行带来的传感器漂移是现有方法的痛点。
核心思路:论文的核心思路是构建一个大规模、高精度的城市级数据集,并提供相应的评估基准。通过使用眼镜式设备采集多模态数据,并利用测量工具获取高精度的控制点作为位姿标注,从而为SLAM算法的评估提供可靠的依据。
技术框架:该数据集的构建流程主要包括以下几个阶段:1) 使用配备多种传感器的眼镜式设备在城市中心采集数据;2) 利用测量工具获取控制点,作为位姿的间接标注;3) 对采集的数据进行处理和校准,生成可用于SLAM算法评估的数据集;4) 设计不同难度的评估赛道,方便对不同算法进行深入分析。
关键创新:该数据集的关键创新在于其规模和精度。与现有的数据集相比,该数据集覆盖了更大的范围,包含了更复杂的场景,并且提供了更高精度的位姿标注。此外,该数据集还包含了多模态数据,例如视觉数据和惯性测量数据,可以用于评估多模态SLAM算法。
关键设计:数据集采集设备为眼镜式设备,配备了摄像头和IMU。位姿标注通过测量工具获取的控制点进行间接标注,保证了厘米级的精度。评估赛道的设计考虑了不同难度的场景,例如夜间行走、车辆行驶等,从而可以全面评估SLAM算法的性能。
🖼️ 关键图片
📊 实验亮点
实验结果表明,现有先进的SLAM系统在所提出的数据集上表现出鲁棒性不足的问题。具体来说,在夜间行走和车辆行驶等极端场景下,现有算法的定位精度显著下降。这表明,现有算法在处理光照变化和运动模糊等问题方面仍有待改进。该数据集的发布为后续研究提供了明确的改进方向。
🎯 应用场景
该研究成果可应用于增强现实、机器人导航、可穿戴设备等领域。高精度、鲁棒的SLAM算法是这些应用的关键技术。该数据集和基准的发布,将促进相关算法的研发,提升这些应用的用户体验和性能,例如,可以用于开发更可靠的AR导航系统或更智能的机器人助手。
📄 摘要(原文)
Precise 6-DoF simultaneous localization and mapping (SLAM) from onboard sensors is critical for wearable devices capturing egocentric data, which exhibits specific challenges, such as a wider diversity of motions and viewpoints, prevalent dynamic visual content, or long sessions affected by time-varying sensor calibration. While recent progress on SLAM has been swift, academic research is still driven by benchmarks that do not reflect these challenges or do not offer sufficiently accurate ground truth poses. In this paper, we introduce a new dataset and benchmark for visual-inertial SLAM with egocentric, multi-modal data. We record hours and kilometers of trajectories through a city center with glasses-like devices equipped with various sensors. We leverage surveying tools to obtain control points as indirect pose annotations that are metric, centimeter-accurate, and available at city scale. This makes it possible to evaluate extreme trajectories that involve walking at night or traveling in a vehicle. We show that state-of-the-art systems developed by academia are not robust to these challenges and we identify components that are responsible for this. In addition, we design tracks with different levels of difficulty to ease in-depth analysis and evaluation of less mature approaches. The dataset and benchmark are available at https://www.lamaria.ethz.ch.