UL-VIO: Ultra-lightweight Visual-Inertial Odometry with Noise Robust Test-time Adaptation

📄 arXiv: 2409.13106v1 📥 PDF

作者: Jinho Park, Se Young Chun, Mingoo Seok

分类: cs.CV

发布日期: 2024-09-19


💡 一句话要点

提出UL-VIO,一种超轻量级且噪声鲁棒的视觉惯性里程计,支持测试时自适应。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 视觉惯性里程计 VIO 模型压缩 测试时自适应 领域自适应 轻量级网络 机器人导航

📋 核心要点

  1. 现有数据驱动的VIO模型参数量大,难以部署在资源受限的设备上,且在测试时容易受到环境变化的影响。
  2. UL-VIO通过模型压缩和保留BatchNorm参数,实现了超轻量级网络,并利用视觉惯性一致性进行测试时自适应。
  3. 实验表明,UL-VIO在保持较高精度的同时,显著减小了模型尺寸,并在多种数据集上验证了其测试时自适应的有效性。

📝 摘要(中文)

数据驱动的视觉惯性里程计(VIO)因其卓越的性能而备受关注,因为VIO是自主机器人的关键组成部分。然而,由于大型网络参数需要容纳在设备内存中,因此它们在资源受限设备上的部署并非易事。此外,由于测试时环境分布的变化,这些网络可能面临部署后失败的风险。鉴于此,我们提出了UL-VIO——一种超轻量级(<1M) VIO网络,能够基于视觉惯性一致性进行测试时自适应(TTA)。具体来说,我们对网络执行模型压缩,同时保留包括所有BatchNorm参数的低级编码器部分,以实现资源高效的测试时自适应。它实现了比最先进技术小36倍的网络规模,而误差仅略有增加——在KITTI数据集上为1%。对于测试时自适应,我们建议使用惯性参考的网络输出作为伪标签,并更新BatchNorm参数以实现轻量级但有效的自适应。据我们所知,这是第一个在VIO上执行噪声鲁棒TTA的工作。在KITTI、EuRoC和Marulan数据集上的实验结果证明了我们的资源高效自适应方法在具有动态域转移的各种TTA场景下的有效性。

🔬 方法详解

问题定义:论文旨在解决数据驱动的视觉惯性里程计(VIO)模型在资源受限设备上部署困难,以及在测试时因环境变化导致性能下降的问题。现有VIO模型通常参数量巨大,难以在移动设备或嵌入式系统上运行,并且缺乏应对测试时数据分布变化的自适应能力。

核心思路:论文的核心思路是设计一个超轻量级的VIO网络,并通过测试时自适应(TTA)策略来提高其在不同环境下的鲁棒性。通过模型压缩减少参数量,并利用视觉惯性一致性约束来生成伪标签,从而在测试阶段动态调整网络参数,适应新的环境。

技术框架:UL-VIO的整体框架包含一个轻量级的视觉惯性编码器和一个测试时自适应模块。编码器负责从视觉和惯性传感器数据中提取特征,并估计位姿。测试时自适应模块利用惯性参考的网络输出作为伪标签,更新BatchNorm参数,从而实现对环境变化的适应。

关键创新:该论文的关键创新在于提出了一个超轻量级的VIO网络结构,并设计了一种噪声鲁棒的测试时自适应方法。通过模型压缩和BatchNorm参数的自适应更新,UL-VIO能够在资源受限的设备上实现高性能的VIO,并有效应对测试时环境变化带来的挑战。这是首个在VIO上进行噪声鲁棒TTA的工作。

关键设计:UL-VIO的关键设计包括:1) 对网络进行模型压缩,使其参数量小于1M;2) 保留低级编码器部分的所有BatchNorm参数,以便进行资源高效的测试时自适应;3) 使用惯性参考的网络输出作为伪标签,并更新BatchNorm参数以实现轻量级但有效的自适应。具体的损失函数和网络结构细节在论文中进行了详细描述(未知)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

UL-VIO在KITTI数据集上实现了比最先进技术小36倍的网络规模,而误差仅增加了1%。在EuRoC和Marulan数据集上的实验结果也表明,UL-VIO在各种TTA场景下都具有良好的性能。这些实验结果验证了UL-VIO在资源效率和鲁棒性方面的优势。

🎯 应用场景

UL-VIO具有广泛的应用前景,尤其适用于资源受限的移动机器人、无人机、增强现实(AR)和虚拟现实(VR)等领域。其轻量级的设计使其能够在计算能力有限的设备上运行,而测试时自适应能力则保证了其在不同环境下的鲁棒性。未来,UL-VIO有望推动自主导航技术在更多实际场景中的应用。

📄 摘要(原文)

Data-driven visual-inertial odometry (VIO) has received highlights for its performance since VIOs are a crucial compartment in autonomous robots. However, their deployment on resource-constrained devices is non-trivial since large network parameters should be accommodated in the device memory. Furthermore, these networks may risk failure post-deployment due to environmental distribution shifts at test time. In light of this, we propose UL-VIO -- an ultra-lightweight (<1M) VIO network capable of test-time adaptation (TTA) based on visual-inertial consistency. Specifically, we perform model compression to the network while preserving the low-level encoder part, including all BatchNorm parameters for resource-efficient test-time adaptation. It achieves 36X smaller network size than state-of-the-art with a minute increase in error -- 1% on the KITTI dataset. For test-time adaptation, we propose to use the inertia-referred network outputs as pseudo labels and update the BatchNorm parameter for lightweight yet effective adaptation. To the best of our knowledge, this is the first work to perform noise-robust TTA on VIO. Experimental results on the KITTI, EuRoC, and Marulan datasets demonstrate the effectiveness of our resource-efficient adaptation method under diverse TTA scenarios with dynamic domain shifts.