MAC-VO: Metrics-aware Covariance for Learning-based Stereo Visual Odometry

📄 arXiv: 2409.09479v2 📥 PDF

作者: Yuheng Qiu, Yutian Chen, Zihao Zhang, Wenshan Wang, Sebastian Scherer

分类: cs.RO, cs.CV

发布日期: 2024-09-14 (更新: 2025-03-12)


💡 一句话要点

MAC-VO:利用度量感知协方差学习的立体视觉里程计,提升位姿估计鲁棒性。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 视觉里程计 立体视觉 深度学习 位姿估计 协方差估计

📋 核心要点

  1. 现有视觉里程计在光照变化、特征稀疏等复杂环境下鲁棒性不足,且难以有效利用特征匹配的不确定性。
  2. MAC-VO通过学习度量感知的协方差,用于关键点选择和位姿图优化中的残差加权,从而提升鲁棒性。
  3. 实验表明,MAC-VO在公开数据集上优于现有VO算法,甚至在复杂环境中超越部分SLAM算法。

📝 摘要(中文)

本文提出了一种名为MAC-VO的新型基于学习的立体视觉里程计,它利用学习到的度量感知匹配不确定性来实现双重目的:选择关键点和在位姿图优化中权衡残差。与传统几何方法优先考虑边缘等纹理丰富的特征不同,我们的关键点选择器利用学习到的不确定性来过滤掉基于全局不一致性的低质量特征。与基于学习的算法为协方差建模尺度无关的对角权重矩阵不同,我们设计了一个度量感知协方差模型,以捕获关键点配准期间的空间误差以及不同轴之间的相关性。将此协方差模型集成到位姿图优化中,增强了位姿估计的鲁棒性和可靠性,尤其是在具有变化的光照、特征密度和运动模式的具有挑战性的环境中。在公共基准数据集上,MAC-VO优于现有的VO算法,甚至在具有挑战性的环境中优于某些SLAM算法。协方差图还提供了有关估计位姿可靠性的有价值信息,这可以有利于自主系统的决策。

🔬 方法详解

问题定义:现有视觉里程计(VO)方法在复杂环境中,如光照变化剧烈、特征点稀疏或运动模式复杂时,容易出现精度下降甚至失效。传统的几何方法依赖于纹理丰富的特征,而基于学习的方法通常使用尺度无关的对角权重矩阵来建模协方差,无法充分利用特征匹配的不确定性信息,从而影响位姿估计的准确性和鲁棒性。

核心思路:MAC-VO的核心思路是学习一个度量感知的协方差模型,该模型能够捕获关键点配准过程中的空间误差以及不同坐标轴之间的相关性。通过将学习到的协方差信息用于关键点选择和位姿图优化中的残差加权,可以有效地过滤掉低质量的特征点,并提高位姿估计的精度和鲁棒性。

技术框架:MAC-VO的整体框架包括以下几个主要模块:1) 特征提取与匹配:从立体图像对中提取特征点并进行匹配。2) 度量感知协方差学习:学习一个能够预测特征点匹配不确定性的协方差模型。3) 关键点选择:利用学习到的协方差信息,过滤掉低质量的特征点。4) 位姿图优化:将剩余的特征点匹配作为约束,构建位姿图,并利用学习到的协方差信息对残差进行加权,从而优化位姿。

关键创新:MAC-VO的关键创新在于提出了一个度量感知的协方差模型,该模型能够捕获特征点匹配过程中的空间误差以及不同坐标轴之间的相关性。与传统的几何方法和基于学习的方法相比,MAC-VO能够更有效地利用特征匹配的不确定性信息,从而提高位姿估计的精度和鲁棒性。

关键设计:MAC-VO的关键设计包括:1) 协方差模型的网络结构:具体网络结构未知,但需要能够预测特征点匹配的协方差矩阵。2) 损失函数:用于训练协方差模型的损失函数,需要能够反映特征点匹配的误差。3) 位姿图优化中的残差加权策略:如何利用学习到的协方差信息对残差进行加权,以提高位姿估计的精度和鲁棒性。具体细节未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MAC-VO在公开数据集上进行了评估,实验结果表明,MAC-VO在具有挑战性的环境中优于现有的VO算法,甚至超越了一些SLAM算法。具体性能数据未知,但论文强调了在光照变化、特征稀疏等复杂环境下的显著提升。该方法通过学习度量感知协方差,有效提升了位姿估计的鲁棒性和精度。

🎯 应用场景

MAC-VO具有广泛的应用前景,可用于自动驾驶、机器人导航、增强现实等领域。通过提供更准确和鲁棒的位姿估计,MAC-VO可以提高自主系统的感知能力和决策能力,使其能够在复杂环境中安全可靠地运行。此外,协方差图提供的位姿可靠性信息,可以辅助自主系统进行风险评估和路径规划。

📄 摘要(原文)

We propose the MAC-VO, a novel learning-based stereo VO that leverages the learned metrics-aware matching uncertainty for dual purposes: selecting keypoint and weighing the residual in pose graph optimization. Compared to traditional geometric methods prioritizing texture-affluent features like edges, our keypoint selector employs the learned uncertainty to filter out the low-quality features based on global inconsistency. In contrast to the learning-based algorithms that model the scale-agnostic diagonal weight matrix for covariance, we design a metrics-aware covariance model to capture the spatial error during keypoint registration and the correlations between different axes. Integrating this covariance model into pose graph optimization enhances the robustness and reliability of pose estimation, particularly in challenging environments with varying illumination, feature density, and motion patterns. On public benchmark datasets, MAC-VO outperforms existing VO algorithms and even some SLAM algorithms in challenging environments. The covariance map also provides valuable information about the reliability of the estimated poses, which can benefit decision-making for autonomous systems.