TCB-VIO: Tightly-Coupled Focal-Plane Binary-Enhanced Visual Inertial Odometry

📄 arXiv: 2510.03919v1 📥 PDF

作者: Matthew Lisondra, Junseo Kim, Glenn Takashi Shimoda, Kourosh Zareinia, Sajad Saeedi

分类: cs.RO

发布日期: 2025-10-04

备注: Accepted at IEEE Robotics and Automation Letters


💡 一句话要点

提出TCB-VIO,利用焦平面传感器和紧耦合MSCKF解决VIO中的漂移问题

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 视觉惯性里程计 VIO 焦平面传感器 FPSP 多状态约束卡尔曼滤波器 MSCKF 紧耦合 高帧率

📋 核心要点

  1. 传统VIO框架受限于视觉姿态估计的空间漂移和惯性测量的时域漂移,尤其是在高动态场景下。
  2. TCB-VIO利用FPSP的高帧率特性,匹配惯性测量的高频输出,从而有效抑制空间漂移。
  3. 实验结果表明,TCB-VIO在精度上超越了ROVIO、VINS-Mono和ORB-SLAM3等先进VIO方法。

📝 摘要(中文)

本文提出了一种名为TCB-VIO的紧耦合视觉惯性里程计(VIO),它利用新一代焦平面传感器处理器阵列(FPSP)实现。FPSP通过在每个像素上集成处理器,显著降低了延迟,克服了传统视觉传感器数据传输瓶颈。虽然VIO框架容易受到视觉姿态估计引起的空间漂移和惯性测量引起的时域漂移的影响,但FPSP通过高帧率运行来匹配惯性测量的高频输出来规避空间漂移。TCB-VIO采用多状态约束卡尔曼滤波器(MSCKF),以250 FPS的高帧率和400 Hz的IMU测量频率运行,实现了6自由度的VIO。实验结果表明,TCB-VIO的性能优于当前最先进的方法,包括ROVIO、VINS-Mono和ORB-SLAM3。

🔬 方法详解

问题定义:视觉惯性里程计(VIO)旨在估计机器人的姿态和运动轨迹。然而,基于视觉的姿态估计容易产生空间漂移,而惯性测量单元(IMU)的积分则会引入时间漂移。传统VIO方法难以在高动态环境下保持长期稳定性和精度。

核心思路:TCB-VIO的核心在于利用焦平面传感器处理器阵列(FPSP)的高帧率特性。FPSP通过在每个像素上集成处理器,显著降低了数据传输延迟,使得视觉算法能够直接在传感器上执行。通过提高视觉信息的更新频率,可以更好地与IMU数据融合,从而减少漂移。

技术框架:TCB-VIO采用紧耦合的多状态约束卡尔曼滤波器(MSCKF)框架。该框架包含以下主要模块:1) 图像预处理:利用FPSP获取高帧率的图像数据;2) 特征提取与匹配:提取图像中的特征点,并在连续帧之间进行匹配;3) 惯性测量处理:对IMU数据进行预积分,得到位姿增量;4) 状态估计:利用MSCKF将视觉和惯性测量融合,估计机器人的状态(位姿、速度、IMU偏差等)。

关键创新:TCB-VIO的关键创新在于将FPSP的高帧率视觉信息与紧耦合MSCKF框架相结合。传统VIO方法通常受限于相机帧率,而TCB-VIO通过FPSP显著提高了视觉信息的更新频率,从而更好地抑制了漂移。此外,紧耦合MSCKF框架能够充分利用视觉和惯性测量之间的互补性,提高状态估计的精度和鲁棒性。

关键设计:TCB-VIO采用250 FPS的视觉帧率和400 Hz的IMU采样率。MSCKF的状态向量包括机器人的位姿、速度、IMU偏差以及多个历史时刻的相机位姿。观测模型包括视觉重投影误差和IMU预积分误差。通过最小化这些误差,可以得到最优的状态估计。具体的参数设置和损失函数细节未在摘要中详细说明,需要参考论文全文。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

TCB-VIO在实验中表现出优于ROVIO、VINS-Mono和ORB-SLAM3等先进VIO方法的性能。虽然摘要中没有给出具体的性能数据和提升幅度,但可以推断TCB-VIO在精度和鲁棒性方面均有显著提升,尤其是在高动态环境下。

🎯 应用场景

TCB-VIO具有广泛的应用前景,包括无人机导航、机器人自主探索、增强现实和虚拟现实等领域。其高精度和低延迟的特性使其特别适用于需要实时性和鲁棒性的应用场景,例如高速运动的机器人或在复杂环境中运行的无人机。未来,该技术有望进一步推动机器人和智能系统的发展。

📄 摘要(原文)

Vision algorithms can be executed directly on the image sensor when implemented on the next-generation sensors known as focal-plane sensor-processor arrays (FPSP)s, where every pixel has a processor. FPSPs greatly improve latency, reducing the problems associated with the bottleneck of data transfer from a vision sensor to a processor. FPSPs accelerate vision-based algorithms such as visual-inertial odometry (VIO). However, VIO frameworks suffer from spatial drift due to the vision-based pose estimation, whilst temporal drift arises from the inertial measurements. FPSPs circumvent the spatial drift by operating at a high frame rate to match the high-frequency output of the inertial measurements. In this paper, we present TCB-VIO, a tightly-coupled 6 degrees-of-freedom VIO by a Multi-State Constraint Kalman Filter (MSCKF), operating at a high frame-rate of 250 FPS and from IMU measurements obtained at 400 Hz. TCB-VIO outperforms state-of-the-art methods: ROVIO, VINS-Mono, and ORB-SLAM3.