BEV-ODOM2: Enhanced BEV-based Monocular Visual Odometry with PV-BEV Fusion and Dense Flow Supervision for Ground Robots

📄 arXiv: 2509.14636v1 📥 PDF

作者: Yufei Wei, Wangtao Lu, Sha Lu, Chenxiao Hu, Fuzhang Han, Rong Xiong, Yue Wang

分类: cs.RO

发布日期: 2025-09-18


💡 一句话要点

BEV-ODOM2:面向地面机器人的PV-BEV融合与稠密光流监督单目视觉里程计

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 视觉里程计 鸟瞰图 单目视觉 光流估计 PV-BEV融合 地面机器人 位姿估计

📋 核心要点

  1. 现有BEV视觉里程计方法面临监督信号稀疏和透视投影信息损失的挑战,限制了其性能。
  2. BEV-ODOM2通过引入稠密BEV光流监督和PV-BEV融合,有效提升了单目视觉里程计的精度和鲁棒性。
  3. 实验结果表明,BEV-ODOM2在多个数据集上取得了显著的性能提升,RTE指标提升高达40%。

📝 摘要(中文)

本文提出BEV-ODOM2,一个增强的框架,旨在解决基于鸟瞰图(BEV)的单目视觉里程计(MVO)中存在的监督信号稀疏和透视到BEV投影过程中的信息损失问题,且无需额外标注。该方法引入:(1)从3自由度位姿真值构建的稠密BEV光流监督,用于像素级指导;(2)PV-BEV融合,在投影前计算相关体积,以保留6自由度运动线索,同时保持尺度一致性。该框架采用三种仅从位姿数据导出的监督级别:稠密BEV光流、PV分支的5自由度和最终3自由度输出。增强的旋转采样进一步平衡了训练中不同的运动模式。在KITTI、NCLT、Oxford和新收集的ZJH-VO多尺度数据集上的大量评估表明,该方法达到了最先进的性能,与之前的BEV方法相比,RTE提高了40%。ZJH-VO数据集涵盖了从地下停车场到室外广场的各种地面车辆场景,现已公开,以促进未来的研究。

🔬 方法详解

问题定义:现有的基于BEV的单目视觉里程计方法,在将图像从透视视角转换到鸟瞰视角的过程中,会损失一部分信息,并且缺乏有效的监督信号,导致里程计精度不高,鲁棒性较差。尤其是在复杂的地面机器人应用场景下,这一问题更加突出。

核心思路:BEV-ODOM2的核心思路是通过引入稠密BEV光流监督和PV-BEV融合来增强BEV特征的表达能力和监督信号的强度。稠密BEV光流监督能够提供像素级别的运动信息指导,而PV-BEV融合则可以在投影前保留更多的6自由度运动线索,从而提高里程计的精度和鲁棒性。

技术框架:BEV-ODOM2的整体框架包含两个主要分支:PV分支和BEV分支。PV分支处理原始图像,提取特征并进行位姿估计。BEV分支将图像投影到鸟瞰视角,并利用稠密光流进行监督。PV-BEV融合模块在投影前计算PV特征和BEV特征之间的相关体积,从而将两个分支的信息进行融合。最后,通过一个3自由度的位姿估计模块输出最终的里程计结果。整个框架采用端到端的训练方式。

关键创新:BEV-ODOM2的关键创新在于PV-BEV融合和稠密光流监督。PV-BEV融合通过在投影前计算相关体积,保留了更多的6自由度运动信息,避免了信息损失。稠密光流监督则提供了像素级别的运动信息指导,增强了BEV特征的表达能力。此外,增强的旋转采样策略也提高了模型对不同运动模式的适应性。

关键设计:在PV-BEV融合中,使用了相关体积来计算PV特征和BEV特征之间的相似度。稠密光流监督使用了L1损失函数来衡量预测光流和真值光流之间的差异。网络结构方面,PV分支和BEV分支都采用了卷积神经网络,并使用了残差连接来提高网络的表达能力。增强的旋转采样策略通过增加旋转角度的采样数量,平衡了训练数据中不同运动模式的比例。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

BEV-ODOM2在KITTI、NCLT、Oxford和ZJH-VO数据集上进行了广泛的评估。实验结果表明,BEV-ODOM2在多个指标上都取得了显著的提升,与之前的BEV方法相比,RTE指标提升高达40%,证明了该方法的有效性和优越性。尤其是在ZJH-VO数据集上,BEV-ODOM2表现出了更强的鲁棒性和泛化能力。

🎯 应用场景

BEV-ODOM2在地面机器人导航、自动驾驶、智能交通系统等领域具有广泛的应用前景。它可以为地面机器人提供准确的位姿估计,使其能够在复杂的环境中进行自主导航。在自动驾驶领域,BEV-ODOM2可以作为感知系统的一部分,提高车辆的定位精度和安全性。此外,该方法还可以应用于三维重建、SLAM等领域,具有重要的实际价值和未来影响。

📄 摘要(原文)

Bird's-Eye-View (BEV) representation offers a metric-scaled planar workspace, facilitating the simplification of 6-DoF ego-motion to a more robust 3-DoF model for monocular visual odometry (MVO) in intelligent transportation systems. However, existing BEV methods suffer from sparse supervision signals and information loss during perspective-to-BEV projection. We present BEV-ODOM2, an enhanced framework addressing both limitations without additional annotations. Our approach introduces: (1) dense BEV optical flow supervision constructed from 3-DoF pose ground truth for pixel-level guidance; (2) PV-BEV fusion that computes correlation volumes before projection to preserve 6-DoF motion cues while maintaining scale consistency. The framework employs three supervision levels derived solely from pose data: dense BEV flow, 5-DoF for the PV branch, and final 3-DoF output. Enhanced rotation sampling further balances diverse motion patterns in training. Extensive evaluation on KITTI, NCLT, Oxford, and our newly collected ZJH-VO multi-scale dataset demonstrates state-of-the-art performance, achieving 40 improvement in RTE compared to previous BEV methods. The ZJH-VO dataset, covering diverse ground vehicle scenarios from underground parking to outdoor plazas, is publicly available to facilitate future research.