BEV-ODOM2: Enhanced BEV-based Monocular Visual Odometry with PV-BEV Fusion and Dense Flow Supervision for Ground Robots

作者: Yufei Wei, Wangtao Lu, Sha Lu, Chenxiao Hu, Fuzhang Han, Rong Xiong, Yue Wang

分类: cs.RO

发布日期: 2025-09-18

💡 一句话要点

BEV-ODOM2：面向地面机器人的PV-BEV融合与稠密光流监督单目视觉里程计

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 视觉里程计 鸟瞰图 单目视觉 光流估计 PV-BEV融合 地面机器人 位姿估计

📋 核心要点

现有BEV视觉里程计方法面临监督信号稀疏和透视投影信息损失的挑战，限制了其性能。
BEV-ODOM2通过引入稠密BEV光流监督和PV-BEV融合，有效提升了单目视觉里程计的精度和鲁棒性。
实验结果表明，BEV-ODOM2在多个数据集上取得了显著的性能提升，RTE指标提升高达40%。

📝 摘要（中文）

本文提出BEV-ODOM2，一个增强的框架，旨在解决基于鸟瞰图（BEV）的单目视觉里程计（MVO）中存在的监督信号稀疏和透视到BEV投影过程中的信息损失问题，且无需额外标注。该方法引入：（1）从3自由度位姿真值构建的稠密BEV光流监督，用于像素级指导；（2）PV-BEV融合，在投影前计算相关体积，以保留6自由度运动线索，同时保持尺度一致性。该框架采用三种仅从位姿数据导出的监督级别：稠密BEV光流、PV分支的5自由度和最终3自由度输出。增强的旋转采样进一步平衡了训练中不同的运动模式。在KITTI、NCLT、Oxford和新收集的ZJH-VO多尺度数据集上的大量评估表明，该方法达到了最先进的性能，与之前的BEV方法相比，RTE提高了40%。ZJH-VO数据集涵盖了从地下停车场到室外广场的各种地面车辆场景，现已公开，以促进未来的研究。

🔬 方法详解

问题定义：现有的基于BEV的单目视觉里程计方法，在将图像从透视视角转换到鸟瞰视角的过程中，会损失一部分信息，并且缺乏有效的监督信号，导致里程计精度不高，鲁棒性较差。尤其是在复杂的地面机器人应用场景下，这一问题更加突出。

核心思路：BEV-ODOM2的核心思路是通过引入稠密BEV光流监督和PV-BEV融合来增强BEV特征的表达能力和监督信号的强度。稠密BEV光流监督能够提供像素级别的运动信息指导，而PV-BEV融合则可以在投影前保留更多的6自由度运动线索，从而提高里程计的精度和鲁棒性。

技术框架：BEV-ODOM2的整体框架包含两个主要分支：PV分支和BEV分支。PV分支处理原始图像，提取特征并进行位姿估计。BEV分支将图像投影到鸟瞰视角，并利用稠密光流进行监督。PV-BEV融合模块在投影前计算PV特征和BEV特征之间的相关体积，从而将两个分支的信息进行融合。最后，通过一个3自由度的位姿估计模块输出最终的里程计结果。整个框架采用端到端的训练方式。

关键创新：BEV-ODOM2的关键创新在于PV-BEV融合和稠密光流监督。PV-BEV融合通过在投影前计算相关体积，保留了更多的6自由度运动信息，避免了信息损失。稠密光流监督则提供了像素级别的运动信息指导，增强了BEV特征的表达能力。此外，增强的旋转采样策略也提高了模型对不同运动模式的适应性。

关键设计：在PV-BEV融合中，使用了相关体积来计算PV特征和BEV特征之间的相似度。稠密光流监督使用了L1损失函数来衡量预测光流和真值光流之间的差异。网络结构方面，PV分支和BEV分支都采用了卷积神经网络，并使用了残差连接来提高网络的表达能力。增强的旋转采样策略通过增加旋转角度的采样数量，平衡了训练数据中不同运动模式的比例。

🖼️ 关键图片

📊 实验亮点

BEV-ODOM2在KITTI、NCLT、Oxford和ZJH-VO数据集上进行了广泛的评估。实验结果表明，BEV-ODOM2在多个指标上都取得了显著的提升，与之前的BEV方法相比，RTE指标提升高达40%，证明了该方法的有效性和优越性。尤其是在ZJH-VO数据集上，BEV-ODOM2表现出了更强的鲁棒性和泛化能力。

🎯 应用场景

BEV-ODOM2在地面机器人导航、自动驾驶、智能交通系统等领域具有广泛的应用前景。它可以为地面机器人提供准确的位姿估计，使其能够在复杂的环境中进行自主导航。在自动驾驶领域，BEV-ODOM2可以作为感知系统的一部分，提高车辆的定位精度和安全性。此外，该方法还可以应用于三维重建、SLAM等领域，具有重要的实际价值和未来影响。

📄 摘要（原文）

Bird's-Eye-View (BEV) representation offers a metric-scaled planar workspace, facilitating the simplification of 6-DoF ego-motion to a more robust 3-DoF model for monocular visual odometry (MVO) in intelligent transportation systems. However, existing BEV methods suffer from sparse supervision signals and information loss during perspective-to-BEV projection. We present BEV-ODOM2, an enhanced framework addressing both limitations without additional annotations. Our approach introduces: (1) dense BEV optical flow supervision constructed from 3-DoF pose ground truth for pixel-level guidance; (2) PV-BEV fusion that computes correlation volumes before projection to preserve 6-DoF motion cues while maintaining scale consistency. The framework employs three supervision levels derived solely from pose data: dense BEV flow, 5-DoF for the PV branch, and final 3-DoF output. Enhanced rotation sampling further balances diverse motion patterns in training. Extensive evaluation on KITTI, NCLT, Oxford, and our newly collected ZJH-VO multi-scale dataset demonstrates state-of-the-art performance, achieving 40 improvement in RTE compared to previous BEV methods. The ZJH-VO dataset, covering diverse ground vehicle scenarios from underground parking to outdoor plazas, is publicly available to facilitate future research.

BEV-ODOM2: Enhanced BEV-based Monocular Visual Odometry with PV-BEV Fusion and Dense Flow Supervision for Ground Robots

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理