PO-MSCKF: An Efficient Visual-Inertial Odometry by Reconstructing the Multi-State Constrained Kalman Filter with the Pose-only Theory

📄 arXiv: 2407.01888v1 📥 PDF

作者: Xueyu Du, Lilian Zhang, Ruochen Liu, Maosong Wang, Wenqi Wu, Jun Mao

分类: cs.RO, cs.CV

发布日期: 2024-07-02


💡 一句话要点

提出基于位姿的MSCKF视觉惯性里程计,提升效率与精度

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 视觉惯性里程计 MSCKF 扩展卡尔曼滤波 位姿估计 多视图几何

📋 核心要点

  1. 传统MSCKF-VIO算法依赖多视图几何,特征位置误差影响观测模型,需投影消除,导致精度下降。
  2. 论文提出基于仅位姿(PO)多视图几何的MSCKF重构方法,避免特征位置误差,提升模型一致性。
  3. 实验结果表明,该方法在多个数据集上实现了精度提升,并在复杂场景中保持了稳定性能。

📝 摘要(中文)

高效的视觉惯性里程计(VIO)对于有效载荷受限的机器人至关重要。尽管现代基于优化的算法已经取得了卓越的精度,但基于MSCKF的VIO算法仍然因其高效和一致的性能而被广泛需求。由于MSCKF建立在传统的多视图几何之上,因此测量的残差不仅与状态误差相关,还与特征位置误差相关。为了应用EKF融合,需要一个投影过程从观测模型中移除特征位置误差,这可能导致模型和精度下降。为了获得高效的视觉惯性融合模型,同时保持模型的一致性,我们提出用新的仅位姿(PO)多视图几何描述来重构MSCKF VIO。在新建的滤波器中,我们建立了PO重投影残差模型,该模型仅与运动状态相关,从而克服了空间投影的要求。此外,新的滤波器不需要任何特征位置信息,从而消除了3D重建过程带来的计算成本和线性化误差。我们在多个数据集上进行了全面的实验,结果表明,该方法在具有挑战性的序列中显示出精度提升和一致的性能。

🔬 方法详解

问题定义:现有的MSCKF-VIO算法在进行视觉惯性融合时,由于依赖传统的多视图几何,观测模型中的残差不仅包含状态误差,还包含特征点位置误差。为了使用扩展卡尔曼滤波(EKF)进行融合,需要将特征点位置误差从观测模型中投影出去,这个过程会引入额外的误差,导致模型精度下降。此外,3D重建过程本身也带来了计算负担和线性化误差。

核心思路:论文的核心思路是使用一种新的“仅位姿”(Pose-Only, PO)的多视图几何描述来重构MSCKF-VIO。这种方法直接使用相机位姿之间的约束关系,避免了对特征点三维位置的估计,从而消除了特征点位置误差对观测模型的影响。通过构建仅与运动状态相关的PO重投影残差,可以直接进行EKF融合,无需额外的投影步骤。

技术框架:PO-MSCKF的整体框架仍然基于MSCKF,但观测模型的构建方式发生了改变。主要流程包括:1. 图像特征提取与匹配;2. 基于匹配特征构建PO重投影残差;3. 使用扩展卡尔曼滤波(EKF)进行状态估计和更新。状态向量包括IMU状态(位置、速度、姿态、加速度计偏差、陀螺仪偏差)和滑动窗口内的相机位姿。

关键创新:最重要的创新点在于使用Pose-Only多视图几何来构建观测模型。与传统MSCKF相比,PO-MSCKF避免了对特征点进行3D重建,直接利用相机位姿之间的相对关系进行约束。这消除了特征点位置误差的影响,简化了观测模型,并降低了计算复杂度。

关键设计:PO重投影残差是关键的设计。具体来说,对于两个相机位姿$T_i$和$T_j$,以及它们共同观测到的一个特征点,传统方法会计算该特征点在两个相机坐标系下的投影误差。而PO方法则直接利用$T_i$和$T_j$之间的相对位姿关系,构建一个与特征点位置无关的残差。这个残差只与相机位姿有关,可以直接用于EKF更新。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,PO-MSCKF在多个数据集上实现了精度提升。例如,在某些具有挑战性的序列中,PO-MSCKF的定位精度优于传统MSCKF,并且在计算效率方面也有所提高。该方法在保证模型一致性的前提下,实现了VIO性能的提升。

🎯 应用场景

该研究成果可应用于计算资源受限的机器人平台,如无人机、移动机器人等。通过提高VIO的效率和精度,可以提升机器人在复杂环境中的定位和导航能力,从而实现更可靠的自主飞行、避障和路径规划。此外,该方法还可以应用于AR/VR等领域,提供更稳定的姿态跟踪。

📄 摘要(原文)

Efficient Visual-Inertial Odometry (VIO) is crucial for payload-constrained robots. Though modern optimization-based algorithms have achieved superior accuracy, the MSCKF-based VIO algorithms are still widely demanded for their efficient and consistent performance. As MSCKF is built upon the conventional multi-view geometry, the measured residuals are not only related to the state errors but also related to the feature position errors. To apply EKF fusion, a projection process is required to remove the feature position error from the observation model, which can lead to model and accuracy degradation. To obtain an efficient visual-inertial fusion model, while also preserving the model consistency, we propose to reconstruct the MSCKF VIO with the novel Pose-Only (PO) multi-view geometry description. In the newly constructed filter, we have modeled PO reprojection residuals, which are solely related to the motion states and thus overcome the requirements of space projection. Moreover, the new filter does not require any feature position information, which removes the computational cost and linearization errors brought in by the 3D reconstruction procedure. We have conducted comprehensive experiments on multiple datasets, where the proposed method has shown accuracy improvements and consistent performance in challenging sequences.