LiVisSfM: Accurate and Robust Structure-from-Motion with LiDAR and Visual Cues

📄 arXiv: 2410.22213v1 📥 PDF

作者: Hanqing Jiang, Liyang Zhou, Zhuang Zhang, Yihao Yu, Guofeng Zhang

分类: cs.CV

发布日期: 2024-10-29

备注: 18 pages, 9 figures, 2 tables


💡 一句话要点

LiVisSfM:融合激光雷达与视觉信息的精确鲁棒的SfM重建系统

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 激光雷达 视觉信息 SfM 三维重建 点云配准 捆绑调整 体素地图

📋 核心要点

  1. 现有LIO/LIVO方法过度依赖激光雷达配准和IMU,限制了在恶劣环境下的鲁棒性。
  2. LiVisSfM通过激光雷达-视觉SfM,结合点到高斯残差度量和捆绑优化,实现了更精确的位姿估计。
  3. 提出的增量体素更新策略,提高了体素地图更新的效率,加速了重建过程。

📝 摘要(中文)

本文提出了一种精确且鲁棒的基于SfM的三维重建管线LiVisSfM,该系统充分结合了激光雷达和视觉信息。与现有主要依赖激光雷达配准和惯性测量单元(IMU)的激光雷达惯性里程计(LIO)和激光雷达惯性视觉里程计(LIVO)方法不同,我们提出了一种激光雷达-视觉SfM方法,该方法创新性地执行激光雷达帧到激光雷达体素地图的配准,并采用点到高斯残差度量。结合激光雷达-视觉BA和显式闭环检测,以捆绑优化的方式实现精确和鲁棒的激光雷达位姿估计,而无需依赖IMU。此外,我们提出了一种增量体素更新策略,用于在激光雷达帧配准和激光雷达-视觉BA优化过程中高效地更新体素地图。实验表明,在公共KITTI基准数据集和各种自采集数据集上,我们的LiVisSfM框架在更精确和鲁棒的激光雷达位姿恢复和稠密点云重建方面优于最先进的LIO和LIVO方法。

🔬 方法详解

问题定义:现有LIO和LIVO方法通常严重依赖激光雷达的精确配准以及IMU数据,但在环境特征不明显或IMU数据质量较差的情况下,性能会显著下降。此外,计算复杂度也是一个挑战,尤其是在大规模场景中。因此,需要一种更鲁棒、更精确且计算效率更高的三维重建方法。

核心思路:LiVisSfM的核心思路是将激光雷达和视觉信息紧密融合到SfM框架中,利用视觉信息增强激光雷达配准的鲁棒性,同时利用激光雷达提供精确的几何约束。通过点到高斯残差度量进行激光雷达帧配准,并结合激光雷达-视觉BA优化,可以有效地降低对IMU的依赖,提高位姿估计的精度和鲁棒性。

技术框架:LiVisSfM的整体框架包括以下几个主要阶段:1) 激光雷达帧配准:将激光雷达帧配准到激光雷达体素地图,使用点到高斯残差度量。2) 激光雷达-视觉BA优化:结合激光雷达和视觉信息进行捆绑调整,优化相机位姿和三维点云。3) 显式闭环检测:检测并纠正累积误差,提高全局一致性。4) 增量体素更新:在配准和BA优化过程中,高效地更新体素地图。

关键创新:该论文的关键创新在于:1) 提出了一种激光雷达-视觉SfM方法,无需过度依赖IMU。2) 采用点到高斯残差度量进行激光雷达帧配准,提高了配准精度。3) 提出了一种增量体素更新策略,提高了体素地图更新的效率。与现有方法相比,LiVisSfM在鲁棒性、精度和计算效率方面都有显著提升。

关键设计:在激光雷达帧配准中,点到高斯残差度量通过将点云表示为高斯分布,能够更好地处理噪声和不确定性。增量体素更新策略通过只更新局部体素,避免了全局重建,从而提高了效率。在激光雷达-视觉BA优化中,需要仔细调整激光雷达和视觉信息的权重,以达到最佳的优化效果。闭环检测的阈值设置也需要根据具体场景进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,LiVisSfM在KITTI数据集和自采集数据集上均优于现有的LIO和LIVO方法。在位姿估计精度方面,LiVisSfM的误差显著降低,尤其是在长序列和具有挑战性的场景中。此外,LiVisSfM重建的点云密度和质量也更高,能够提供更完整和准确的三维环境模型。

🎯 应用场景

LiVisSfM具有广泛的应用前景,包括自动驾驶、机器人导航、三维地图构建、城市建模等领域。该方法能够提供精确和鲁棒的三维重建结果,为这些应用提供可靠的环境感知能力。未来,可以进一步研究如何将LiVisSfM应用于更大规模、更复杂的场景,并探索与其他传感器(如毫米波雷达)的融合。

📄 摘要(原文)

This paper presents an accurate and robust Structure-from-Motion (SfM) pipeline named LiVisSfM, which is an SfM-based reconstruction system that fully combines LiDAR and visual cues. Unlike most existing LiDAR-inertial odometry (LIO) and LiDAR-inertial-visual odometry (LIVO) methods relying heavily on LiDAR registration coupled with Inertial Measurement Unit (IMU), we propose a LiDAR-visual SfM method which innovatively carries out LiDAR frame registration to LiDAR voxel map in a Point-to-Gaussian residual metrics, combined with a LiDAR-visual BA and explicit loop closure in a bundle optimization way to achieve accurate and robust LiDAR pose estimation without dependence on IMU incorporation. Besides, we propose an incremental voxel updating strategy for efficient voxel map updating during the process of LiDAR frame registration and LiDAR-visual BA optimization. Experiments demonstrate the superior effectiveness of our LiVisSfM framework over state-of-the-art LIO and LIVO works on more accurate and robust LiDAR pose recovery and dense point cloud reconstruction of both public KITTI benchmark and a variety of self-captured dataset.