Drift-free Visual SLAM using Digital Twins

作者: Roxane Merat, Giovanni Cioffi, Leonard Bauersfeld, Davide Scaramuzza

分类: cs.RO

发布日期: 2024-12-11 (更新: 2024-12-12)

期刊: Robotics and Automation Letters 2024

💡 一句话要点

提出基于数字孪生的无漂移视觉SLAM，提升城市环境定位精度

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics) 支柱六：视频提取与匹配 (Video Extraction)

关键词: 视觉SLAM 数字孪生 点云配准 全局定位 无漂移 城市环境 无人机导航

📋 核心要点

传统VIO/VSLAM方法依赖局部数据，长期运行存在漂移，而GPS在室内和城市环境受限。
该方法将VIO/VSLAM生成的稀疏点云与数字孪生对齐，实现全局一致的定位，无需视觉数据关联。
实验表明，该方法优于VIO-GPS系统，且对视点变化具有更强的鲁棒性。

📝 摘要（中文）

在全球城市环境中，全局一致的定位对于自动驾驶车辆、无人机以及视障人士辅助技术至关重要。传统的视觉惯性里程计(VIO)和视觉同步定位与地图构建(VSLAM)方法虽然在局部姿态估计方面表现良好，但由于依赖局部传感器数据，长期存在漂移问题。GPS可以抵消这种漂移，但在室内不可用，在城市地区也常常不可靠。另一种方法是使用视觉特征匹配将相机定位到现有的3D地图上，虽然可以提供厘米级的精确定位，但受到当前视图与地图之间视觉相似性的限制。本文提出了一种新方法，通过使用点到面匹配将VIO/VSLAM系统生成的稀疏3D点云与数字孪生对齐，从而实现精确且全局一致的定位；无需视觉数据关联。所提出的方法提供了一个紧密集成到VIO/VSLAM系统中的6自由度全局测量。在高保真GPS模拟器和无人机收集的真实世界数据上进行的实验表明，我们的方法优于最先进的VIO-GPS系统，并且与最先进的视觉SLAM系统相比，对视点变化具有更高的鲁棒性。

🔬 方法详解

问题定义：现有VIO/VSLAM方法在城市环境中长期运行时会产生累积漂移，导致定位精度下降。GPS虽然可以纠正漂移，但在室内和城市峡谷等环境中信号不稳定或不可用。基于视觉特征匹配的定位方法依赖于当前视图与地图的视觉相似性，当视角变化较大或光照条件变化时，性能会显著下降。

核心思路：该论文的核心思路是将VIO/VSLAM系统生成的稀疏3D点云与预先构建的数字孪生模型进行对齐，从而实现全局定位。数字孪生提供了全局一致的参考框架，可以有效地消除VIO/VSLAM的漂移。通过点云对齐，避免了对视觉特征的依赖，提高了对视角和光照变化的鲁棒性。

技术框架：该方法将VIO/VSLAM系统与数字孪生模型相结合。VIO/VSLAM负责局部姿态估计和稀疏点云构建。然后，使用点到面匹配算法将VIO/VSLAM生成的点云与数字孪生模型进行对齐，得到全局姿态估计。最后，将全局姿态估计紧密集成到VIO/VSLAM系统中，实现无漂移的定位。

关键创新：该方法最重要的创新点在于利用数字孪生作为全局参考框架，通过点云对齐实现无漂移的视觉SLAM。与传统的视觉SLAM方法相比，该方法不需要视觉数据关联，对视角和光照变化具有更高的鲁棒性。与VIO-GPS系统相比，该方法在GPS信号受限的环境中也能提供可靠的定位。

关键设计：该方法使用点到面匹配算法进行点云对齐。具体来说，对于VIO/VSLAM生成的每个点，在数字孪生模型中找到距离最近的面，并计算点到面的距离。然后，通过最小化点到面距离的平方和来优化全局姿态。为了提高匹配的鲁棒性，可以使用RANSAC等方法来去除外点。此外，全局姿态估计可以作为VIO/VSLAM的先验信息，进一步提高定位精度。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该方法在GPS模拟器和真实无人机数据集上均优于最先进的VIO-GPS系统。与传统的视觉SLAM系统相比，该方法对视点变化具有更高的鲁棒性。具体来说，在无人机数据集上，该方法实现了厘米级的定位精度，并且能够有效地消除VIO/VSLAM的漂移。

🎯 应用场景

该研究成果可应用于自动驾驶、无人机导航、增强现实、机器人定位等领域。尤其在城市环境中，可以为自动驾驶车辆提供高精度、全局一致的定位服务，提高导航的安全性和可靠性。此外，该方法还可以应用于室内环境，为机器人提供自主导航能力。对于视障人士，该技术可以提供更精确的定位和导航辅助，提升生活质量。

📄 摘要（原文）

Globally-consistent localization in urban environments is crucial for autonomous systems such as self-driving vehicles and drones, as well as assistive technologies for visually impaired people. Traditional Visual-Inertial Odometry (VIO) and Visual Simultaneous Localization and Mapping (VSLAM) methods, though adequate for local pose estimation, suffer from drift in the long term due to reliance on local sensor data. While GPS counteracts this drift, it is unavailable indoors and often unreliable in urban areas. An alternative is to localize the camera to an existing 3D map using visual-feature matching. This can provide centimeter-level accurate localization but is limited by the visual similarities between the current view and the map. This paper introduces a novel approach that achieves accurate and globally-consistent localization by aligning the sparse 3D point cloud generated by the VIO/VSLAM system to a digital twin using point-to-plane matching; no visual data association is needed. The proposed method provides a 6-DoF global measurement tightly integrated into the VIO/VSLAM system. Experiments run on a high-fidelity GPS simulator and real-world data collected from a drone demonstrate that our approach outperforms state-of-the-art VIO-GPS systems and offers superior robustness against viewpoint changes compared to the state-of-the-art Visual SLAM systems.

Drift-free Visual SLAM using Digital Twins

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理