MonoPP: Metric-Scaled Self-Supervised Monocular Depth Estimation by Planar-Parallax Geometry in Automotive Applications
作者: Gasser Elazab, Torben Gräber, Michael Unterreiner, Olaf Hellwich
分类: cs.CV, cs.AI, cs.LG, cs.RO
发布日期: 2024-11-29
备注: Accepted at WACV 25, project page: https://mono-pp.github.io/
期刊: Proceedings of the 2025 IEEE/CVF Winter Conference on Applications of Computer Vision (WACV), Tucson, AZ, USA, 26 February 2025, pp. 2777-2787
DOI: 10.1109/WACV61041.2025.00275
💡 一句话要点
MonoPP:利用平面视差几何实现汽车应用中度量尺度自监督单目深度估计
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 自监督学习 单目深度估计 平面视差几何 度量尺度深度 自动驾驶
📋 核心要点
- 现有自监督单目深度估计方法通常产生尺度不变的结果,缺乏绝对尺度信息。
- 利用车辆中易获取的单目视频和相机安装位置,结合平面视差几何重建场景结构。
- 在KITTI数据集上取得了领先的度量尺度深度预测结果,并在Cityscapes数据集上验证了有效性。
📝 摘要(中文)
自监督单目深度估计(MDE)因能直接从视频中预测深度而备受欢迎。然而,这些方法通常产生尺度不变的结果,除非提供额外的训练信号。为了解决这个问题,我们提出了一种新颖的自监督度量尺度MDE模型,该模型仅需要单目视频数据和相机安装位置,这两者在现代车辆中都很容易获得。我们的方法利用平面视差几何来重建场景结构。完整的流程包括三个主要网络:多帧网络、单帧网络和姿态网络。多帧网络处理连续帧,利用平面视差几何和相机安装位置来估计静态场景的结构。基于这种重建,它作为教师,将尺度信息、可行驶区域掩码、静态场景的度量尺度深度和动态对象掩码等知识提炼到单帧网络。它还有助于姿态网络预测两个连续图像之间的度量尺度相对姿态。我们的方法在驾驶基准KITTI上实现了度量尺度深度预测的最先进结果。值得注意的是,它是首批为具有挑战性的Cityscapes数据集生成自监督度量尺度深度预测的方法之一,证明了其有效性和通用性。
🔬 方法详解
问题定义:现有的自监督单目深度估计方法通常无法预测具有真实物理尺度的深度信息,即预测结果是尺度模糊的。这限制了其在需要精确深度信息的实际应用,如自动驾驶中的距离测量和路径规划。现有方法要么需要额外的监督信号,要么依赖于复杂的后处理来恢复尺度信息。
核心思路:论文的核心思路是利用平面视差几何(Planar-Parallax Geometry)来约束深度估计过程,从而恢复场景的真实尺度。平面视差几何利用了场景中普遍存在的平面结构,以及相机运动产生的视差,通过几何关系推导出深度信息。结合车辆中已知的相机安装位置,可以进一步约束平面视差的计算,从而实现度量尺度的深度估计。
技术框架:该方法包含三个主要网络:多帧网络、单帧网络和姿态网络。多帧网络接收连续帧作为输入,利用平面视差几何和相机安装位置估计静态场景的结构,并生成尺度信息、可行驶区域掩码、度量尺度深度和动态对象掩码。单帧网络接收单张图像作为输入,学习预测深度信息。姿态网络预测连续图像之间的相对姿态。多帧网络作为教师网络,将知识蒸馏到单帧网络,从而使单帧网络也能够预测度量尺度的深度。
关键创新:该方法最重要的创新点在于将平面视差几何引入到自监督单目深度估计中,并结合相机安装位置信息,实现了度量尺度的深度预测。与现有方法相比,该方法不需要额外的监督信号或复杂的后处理,可以直接从单目视频中学习到具有真实尺度的深度信息。
关键设计:多帧网络利用多个连续帧来估计平面参数和深度信息。损失函数包括光度一致性损失、深度一致性损失和尺度一致性损失,用于约束深度估计的准确性和尺度。知识蒸馏过程使用L1损失和结构相似性损失(SSIM)来保证单帧网络学习到多帧网络的深度信息和结构信息。动态对象掩码用于排除动态对象对平面视差计算的影响。
🖼️ 关键图片
📊 实验亮点
该方法在KITTI数据集上实现了最先进的度量尺度深度预测结果,显著优于其他自监督单目深度估计方法。此外,该方法也是首批在具有挑战性的Cityscapes数据集上实现自监督度量尺度深度预测的方法之一,证明了其在不同场景下的泛化能力。具体性能数据未知,但摘要强调了其state-of-the-art的地位。
🎯 应用场景
该研究成果可广泛应用于自动驾驶领域,例如环境感知、障碍物检测、路径规划和车辆控制。精确的度量尺度深度信息能够帮助自动驾驶系统更准确地理解周围环境,提高驾驶安全性。此外,该方法还可以应用于机器人导航、增强现实等领域,为这些应用提供更可靠的深度信息。
📄 摘要(原文)
Self-supervised monocular depth estimation (MDE) has gained popularity for obtaining depth predictions directly from videos. However, these methods often produce scale invariant results, unless additional training signals are provided. Addressing this challenge, we introduce a novel self-supervised metric-scaled MDE model that requires only monocular video data and the camera's mounting position, both of which are readily available in modern vehicles. Our approach leverages planar-parallax geometry to reconstruct scene structure. The full pipeline consists of three main networks, a multi-frame network, a singleframe network, and a pose network. The multi-frame network processes sequential frames to estimate the structure of the static scene using planar-parallax geometry and the camera mounting position. Based on this reconstruction, it acts as a teacher, distilling knowledge such as scale information, masked drivable area, metric-scale depth for the static scene, and dynamic object mask to the singleframe network. It also aids the pose network in predicting a metric-scaled relative pose between two subsequent images. Our method achieved state-of-the-art results for the driving benchmark KITTI for metric-scaled depth prediction. Notably, it is one of the first methods to produce self-supervised metric-scaled depth prediction for the challenging Cityscapes dataset, demonstrating its effectiveness and versatility.