Benchmarking Visual Feature Representations for LiDAR-Inertial-Visual Odometry Under Challenging Conditions
作者: Eunseon Choi, Junwoo Hong, Daehan Lee, Sanghyun Park, Hyunyoung Jo, Sunyoung Kim, Changho Kang, Seongsam Kim, Yonghan Jung, Jungwook Park, Seul Koo, Soohee Han
分类: cs.RO
发布日期: 2026-03-19
备注: 14 pages, Publised IEEE Access2026
期刊: E. Choi et al., "Benchmarking Visual Feature Representations for LiDAR-Inertial-Visual Odometry Under Challenging Conditions," in IEEE Access, vol. 14, pp. 30186-30199, 2026
DOI: 10.1109/ACCESS.2026.3667112
💡 一句话要点
提出混合视觉特征的LIVO框架,提升恶劣光照条件下的定位精度
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱六:视频提取与匹配 (Video Extraction)
关键词: 视觉里程计 LiDAR-惯性-视觉融合 特征匹配 直接法 恶劣光照条件
📋 核心要点
- 传统视觉里程计在光照变化等恶劣环境下性能下降,影响机器人导航的鲁棒性。
- 提出一种混合LIVO框架,结合直接光度法和基于描述子的特征匹配,增强视觉特征的鲁棒性。
- 实验结果表明,该混合方法在恶劣光照条件下优于传统稀疏直接法,提升了定位精度。
📝 摘要(中文)
在自主驾驶中,精准定位对于环境地图构建和幸存者搜寻等任务至关重要。在低光照、过度曝光、光照变化和高视差等视觉挑战环境中,传统视觉里程计的性能显著下降,阻碍了机器人导航的鲁棒性。本文扩展了基于FAST-LIVO2的框架,引入了一种混合方法,将直接光度法与基于描述子的特征匹配相结合。对于基于描述子的特征匹配,本文提出了ORB与汉明距离、SuperPoint与SuperGlue、SuperPoint与LightGlue以及XFeat与互最近邻的组合。通过精度、计算成本和特征跟踪稳定性对所提出的配置进行基准测试,从而能够定量比较视觉描述符的适应性和适用性。实验结果表明,所提出的混合方法优于传统的稀疏直接法。即使在光照变化导致光度不一致的区域,稀疏直接法经常无法收敛,但所提出的方法在相同条件下仍能保持鲁棒的性能。此外,具有学习型描述符的混合方法能够在具有挑战性的环境中实现鲁棒且可靠的视觉状态估计。
🔬 方法详解
问题定义:论文旨在解决在具有挑战性的视觉环境下,例如低光照、过度曝光和光照变化等,传统视觉里程计(VO)方法性能显著下降的问题。这些问题导致VO无法提供准确和鲁棒的位姿估计,从而影响依赖于精确位置信息的自主导航任务。现有方法在这些场景下容易失效,无法保证系统的可靠性。
核心思路:论文的核心思路是将直接光度法与基于描述子的特征匹配方法相结合,构建一个混合的LiDAR-惯性-视觉里程计(LIVO)框架。直接法利用图像像素的亮度信息进行位姿估计,而基于描述子的方法则依赖于提取图像中的显著特征点并进行匹配。通过融合这两种方法,可以互补彼此的优势,提高系统在恶劣视觉条件下的鲁棒性。
技术框架:该框架基于FAST-LIVO2进行扩展,主要包含以下几个模块:LiDAR数据处理模块、IMU数据处理模块、视觉特征提取与匹配模块、以及融合优化模块。视觉特征提取与匹配模块是本文的重点,它同时使用了直接光度法和基于描述子的特征匹配方法。具体来说,论文尝试了多种描述子组合,例如ORB与汉明距离、SuperPoint与SuperGlue、SuperPoint与LightGlue以及XFeat与互最近邻。融合优化模块则将来自LiDAR、IMU和视觉传感器的信息进行融合,利用优化算法估计机器人的位姿。
关键创新:论文的关键创新在于提出了一种混合的视觉特征表示方法,将直接光度法和基于描述子的特征匹配相结合。这种混合方法能够充分利用图像中的信息,提高系统在恶劣视觉条件下的鲁棒性。此外,论文还系统地评估了不同描述子组合的性能,为实际应用提供了参考。
关键设计:论文的关键设计在于选择合适的描述子和匹配策略。例如,SuperPoint和SuperGlue/LightGlue是基于深度学习的特征提取器和匹配器,具有较强的鲁棒性。XFeat则是一种手工设计的特征描述子。论文通过实验对比了这些不同描述子组合的性能,并选择了在特定场景下表现最佳的组合。此外,论文还对融合优化模块中的参数进行了调整,以获得最佳的定位精度。
🖼️ 关键图片
📊 实验亮点
实验结果表明,所提出的混合方法在恶劣光照条件下优于传统的稀疏直接法。例如,在光照变化剧烈的区域,稀疏直接法经常无法收敛,而所提出的方法仍能保持鲁棒的性能。具体而言,使用学习型描述符(如SuperPoint与SuperGlue)的混合方法在精度和鲁棒性方面均有显著提升,能够实现更可靠的视觉状态估计。
🎯 应用场景
该研究成果可应用于多种需要鲁棒定位的场景,例如自主驾驶、无人机导航、机器人搜救和环境监测等。特别是在光照条件恶劣或视觉特征不明显的环境中,该方法能够提供更可靠的定位信息,提高系统的安全性和可靠性。未来,该方法还可以扩展到其他类型的传感器和环境,进一步提高其适用性和性能。
📄 摘要(原文)
Accurate localization in autonomous driving is critical for successful missions including environmental mapping and survivor searches. In visually challenging environments, including low-light conditions, overexposure, illumination changes, and high parallax, the performance of conventional visual odometry methods significantly degrade undermining robust robotic navigation. Researchers have recently proposed LiDAR-inertial-visual odometry (LIVO) frameworks, that integrate LiDAR, IMU, and camera sensors, to address these challenges. This paper extends the FAST-LIVO2-based framework by introducing a hybrid approach that integrates direct photometric methods with descriptor-based feature matching. For the descriptor-based feature matching, this work proposes pairs of ORB with the Hamming distance, SuperPoint with SuperGlue, SuperPoint with LightGlue, and XFeat with the mutual nearest neighbor. The proposed configurations are benchmarked by accuracy, computational cost, and feature tracking stability, enabling a quantitative comparison of the adaptability and applicability of visual descriptors. The experimental results reveal that the proposed hybrid approach outperforms the conventional sparse-direct method. Although the sparse-direct method often fails to converge in regions where photometric inconsistency arises due to illumination changes, the proposed approach still maintains robust performance under the same conditions. Furthermore, the hybrid approach with learning-based descriptors enables robust and reliable visual state estimation across challenging environments.