BEV-DWPVO: BEV-based Differentiable Weighted Procrustes for Low Scale-drift Monocular Visual Odometry on Ground

📄 arXiv: 2502.20078v1 📥 PDF

作者: Yufei Wei, Sha Lu, Wangtao Lu, Rong Xiong, Yue Wang

分类: cs.RO

发布日期: 2025-02-27


💡 一句话要点

提出基于BEV和可微加权Procrustes的单目视觉里程计,降低地面车辆的尺度漂移。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 单目视觉里程计 鸟瞰图 可微Procrustes 尺度漂移 地面平面假设

📋 核心要点

  1. 单目视觉里程计缺乏尺度信息,导致长距离任务中尺度漂移严重,传统方法和基于深度预测的学习方法各有局限。
  2. BEV-DWPVO利用地面平面假设,将环境表示为BEV特征图,降低位姿估计复杂度,并使用可微加权Procrustes求解器。
  3. 在NCLT、Oxford和KITTI数据集上的实验表明,BEV-DWPVO在大多数评估指标上优于现有的单目视觉里程计方法。

📝 摘要(中文)

单目视觉里程计(MVO)为自动驾驶车辆提供了一种经济高效的实时定位解决方案。然而,MVO系统面临缺乏单目相机固有尺度信息的问题。传统方法具有良好的可解释性,但只能获得相对尺度,并且在长距离任务中存在严重的尺度漂移。基于透视视角的学习方法利用大量训练数据来获取先验知识,并通过预测深度值来估计绝对尺度。然而,由于需要准确估计每个点的深度,其泛化能力受到限制。为此,我们提出了一种名为BEV-DWPVO的新型MVO系统。我们的方法利用了常见的地面平面假设,使用鸟瞰图(BEV)特征图来表示具有统一尺度的网格化环境。这使我们能够将位姿估计的复杂度从6自由度(DoF)降低到3自由度。在BEV空间中提取和匹配关键点,然后通过可微加权Procrustes求解器进行位姿估计。整个系统是完全可微的,支持仅使用位姿监督而无需辅助任务的端到端训练。我们在具有挑战性的长序列数据集NCLT、Oxford和KITTI上验证了BEV-DWPVO,在大多数评估指标上实现了优于现有MVO方法的结果。

🔬 方法详解

问题定义:单目视觉里程计(MVO)由于缺乏单目相机提供的固有尺度信息,在长距离行驶中会产生严重的尺度漂移。传统方法依赖于几何约束,但只能估计相对尺度。基于深度预测的学习方法虽然可以估计绝对尺度,但对深度估计的准确性要求高,泛化能力有限。

核心思路:BEV-DWPVO的核心思路是利用地面车辆行驶场景中常见的地面平面假设,将环境信息投影到鸟瞰图(BEV)空间,从而将复杂的6自由度(DoF)位姿估计问题简化为3自由度问题,并统一了尺度。通过在BEV空间中进行特征提取和匹配,可以更有效地进行位姿估计。

技术框架:BEV-DWPVO系统主要包含以下几个阶段:1)图像输入与特征提取:从单目相机获取图像,并提取图像特征。2)BEV特征图构建:将提取的图像特征投影到BEV空间,构建BEV特征图。3)关键点提取与匹配:在BEV特征图上提取关键点,并进行关键点匹配。4)位姿估计:使用可微加权Procrustes求解器,根据匹配的关键点估计车辆的位姿。5)端到端训练:整个系统是可微的,可以使用位姿监督进行端到端训练。

关键创新:该论文的关键创新在于:1)将单目视觉里程计问题转换到BEV空间,利用地面平面假设简化了位姿估计。2)提出了可微加权Procrustes求解器,使得整个系统可以进行端到端训练。3)仅使用位姿监督,无需额外的深度信息或其他辅助任务。

关键设计:BEV-DWPVO的关键设计包括:1)BEV特征图的网格大小和范围的选择,需要根据实际场景进行调整。2)可微加权Procrustes求解器的权重设计,可以根据关键点匹配的质量进行调整。3)损失函数的设计,采用位姿误差作为监督信号,可以使用L1或L2损失。4)网络结构的选择,可以使用常见的卷积神经网络作为特征提取器。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

BEV-DWPVO在NCLT、Oxford和KITTI等具有挑战性的长序列数据集上进行了验证,实验结果表明,该方法在大多数评估指标上优于现有的单目视觉里程计方法。例如,在KITTI数据集上,BEV-DWPVO的平均平移误差和旋转误差均低于其他方法,表明其具有更高的定位精度和更低的尺度漂移。

🎯 应用场景

BEV-DWPVO可应用于低成本的自动驾驶车辆、移动机器人等领域,尤其适用于对定位精度要求较高但计算资源有限的场景。该方法利用单目相机和地面平面假设,降低了硬件成本和计算复杂度,为在资源受限平台上实现高精度定位提供了可能。未来可进一步扩展到更复杂的非结构化环境。

📄 摘要(原文)

Monocular Visual Odometry (MVO) provides a cost-effective, real-time positioning solution for autonomous vehicles. However, MVO systems face the common issue of lacking inherent scale information from monocular cameras. Traditional methods have good interpretability but can only obtain relative scale and suffer from severe scale drift in long-distance tasks. Learning-based methods under perspective view leverage large amounts of training data to acquire prior knowledge and estimate absolute scale by predicting depth values. However, their generalization ability is limited due to the need to accurately estimate the depth of each point. In contrast, we propose a novel MVO system called BEV-DWPVO. Our approach leverages the common assumption of a ground plane, using Bird's-Eye View (BEV) feature maps to represent the environment in a grid-based structure with a unified scale. This enables us to reduce the complexity of pose estimation from 6 Degrees of Freedom (DoF) to 3-DoF. Keypoints are extracted and matched within the BEV space, followed by pose estimation through a differentiable weighted Procrustes solver. The entire system is fully differentiable, supporting end-to-end training with only pose supervision and no auxiliary tasks. We validate BEV-DWPVO on the challenging long-sequence datasets NCLT, Oxford, and KITTI, achieving superior results over existing MVO methods on most evaluation metrics.