Camera Height Doesn't Change: Unsupervised Training for Metric Monocular Road-Scene Depth Estimation

📄 arXiv: 2312.04530v3 📥 PDF

作者: Genki Kinoshita, Ko Nishino

分类: cs.CV, cs.RO

发布日期: 2023-12-07 (更新: 2024-10-01)

备注: ECCV 2024. Project page: https://vision.ist.i.kyoto-u.ac.jp/research/fumet/


💡 一句话要点

提出FUMET框架,仅用驾驶视频无监督训练单目深度网络,实现绝对尺度和度量深度估计。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 单目深度估计 无监督学习 度量深度 尺度估计 相机高度 自动驾驶 道路场景理解

📋 核心要点

  1. 单目深度估计缺乏绝对尺度信息,难以直接应用于需要度量信息的场景,现有方法依赖额外传感器或人工标注。
  2. FUMET利用道路场景中车辆的尺寸作为尺度监督,通过估计和聚合车辆尺寸信息来推断相机高度,并强制相机高度在视频序列中的一致性。
  3. 在KITTI和Cityscapes数据集上的实验表明,FUMET能够有效提升单目深度估计的精度,并实现state-of-the-art的结果,且支持混合数据集训练。

📝 摘要(中文)

本文提出了一种新的训练方法FUMET,使单目深度网络仅从常规训练数据(即驾驶视频)中学习绝对尺度并估计度量道路场景深度。核心思想是利用道路上的车辆作为尺度监督的来源,并以稳健的方式将其纳入网络训练。FUMET检测并估计帧中车辆的大小,并将从中提取的尺度信息聚合为相机高度的估计,整个视频序列中相机高度的一致性被强制执行作为尺度监督。这实现了对任何原本尺度模糊的单目深度网络的鲁棒无监督训练,使其不仅具有尺度感知能力,而且无需辅助传感器和额外监督即可实现度量精度。在KITTI和Cityscapes数据集上的大量实验表明了FUMET的有效性,它实现了最先进的精度。我们还表明,FUMET能够训练来自不同相机高度的混合数据集,从而实现更大规模的训练和更好的泛化。度量深度重建在任何道路场景视觉建模中都是必不可少的,FUMET通过建立将任何模型转换为度量深度估计器的方法,普及了其部署。

🔬 方法详解

问题定义:单目深度估计通常只能预测相对深度,缺乏绝对尺度信息,这限制了其在需要度量信息的实际应用,如自动驾驶、机器人导航等。现有方法通常需要额外的传感器(如激光雷达)或人工标注的深度图来提供尺度信息,增加了成本和复杂度。

核心思路:FUMET的核心思想是利用道路场景中常见的车辆作为尺度监督的来源。通过检测和估计车辆的尺寸,可以推断出相机的高度。然后,通过强制相机高度在整个视频序列中的一致性,可以实现对单目深度网络的无监督训练,使其能够预测具有绝对尺度的深度图。这种方法无需额外的传感器或人工标注,降低了成本和复杂度。

技术框架:FUMET的整体框架包括以下几个主要模块:1) 车辆检测与尺寸估计模块:用于检测图像中的车辆,并估计其三维尺寸。可以使用现有的目标检测和尺寸估计方法。2) 相机高度估计模块:利用车辆的尺寸信息,估计相机的离地高度。该模块会聚合来自多个车辆的尺寸信息,以提高估计的准确性。3) 尺度一致性约束模块:强制相机高度在整个视频序列中保持一致。这可以通过设计合适的损失函数来实现。4) 深度网络训练模块:使用估计的相机高度作为尺度监督,训练单目深度网络。

关键创新:FUMET的关键创新在于利用车辆作为尺度监督的来源,并强制相机高度在视频序列中的一致性。这种方法无需额外的传感器或人工标注,即可实现对单目深度网络的无监督训练,使其能够预测具有绝对尺度的深度图。与现有方法相比,FUMET具有更低的成本和更高的灵活性。

关键设计:FUMET的关键设计包括:1) 使用预训练的车辆检测器和尺寸估计器,以提高车辆尺寸估计的准确性。2) 设计鲁棒的相机高度估计方法,以应对车辆尺寸估计误差和遮挡等问题。3) 使用平滑的损失函数来强制相机高度在视频序列中的一致性。4) 将相机高度估计作为尺度因子,直接应用于深度网络的输出,以实现度量深度估计。

📊 实验亮点

FUMET在KITTI和Cityscapes数据集上取得了state-of-the-art的精度。例如,在KITTI数据集上,FUMET在多个指标上超过了现有的无监督单目深度估计方法。此外,FUMET还能够训练来自不同相机高度的混合数据集,从而实现更大规模的训练和更好的泛化能力。实验结果表明,FUMET是一种有效且实用的度量单目深度估计方法。

🎯 应用场景

FUMET可广泛应用于自动驾驶、机器人导航、增强现实等领域。在自动驾驶中,度量深度信息可用于车辆定位、障碍物检测和路径规划。在机器人导航中,可用于构建环境地图和实现自主导航。在增强现实中,可用于将虚拟物体与真实场景进行精确对齐。FUMET的无监督训练方式降低了部署成本,加速了相关技术的落地。

📄 摘要(原文)

In this paper, we introduce a novel training method for making any monocular depth network learn absolute scale and estimate metric road-scene depth just from regular training data, i.e., driving videos. We refer to this training framework as FUMET. The key idea is to leverage cars found on the road as sources of scale supervision and to incorporate them in network training robustly. FUMET detects and estimates the sizes of cars in a frame and aggregates scale information extracted from them into an estimate of the camera height whose consistency across the entire video sequence is enforced as scale supervision. This realizes robust unsupervised training of any, otherwise scale-oblivious, monocular depth network so that they become not only scale-aware but also metric-accurate without the need for auxiliary sensors and extra supervision. Extensive experiments on the KITTI and the Cityscapes datasets show the effectiveness of FUMET, which achieves state-of-the-art accuracy. We also show that FUMET enables training on mixed datasets of different camera heights, which leads to larger-scale training and better generalization. Metric depth reconstruction is essential in any road-scene visual modeling, and FUMET democratizes its deployment by establishing the means to convert any model into a metric depth estimator.