From-Ground-To-Objects: Coarse-to-Fine Self-supervised Monocular Depth Estimation of Dynamic Objects with Ground Contact Prior

📄 arXiv: 2312.10118v1 📥 PDF

作者: Jaeho Moon, Juan Luis Gonzalez Bello, Byeongjun Kwon, Munchurl Kim

分类: cs.CV

发布日期: 2023-12-15


💡 一句话要点

提出基于地面接触先验的粗到精自监督单目深度估计方法,提升动态物体深度估计精度。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 自监督学习 单目深度估计 动态场景 地面接触先验 粗到精训练

📋 核心要点

  1. 自监督单目深度估计在动态场景中,由于移动物体违反静态场景假设,导致深度估计精度下降。
  2. 利用移动物体通常与地面接触的先验知识,提出粗到精的训练策略,分阶段优化动态物体的深度估计。
  3. 实验表明,该方法在Cityscapes和KITTI数据集上显著提升了深度估计性能,尤其是在移动物体区域。

📝 摘要(中文)

本文提出了一种自监督单目深度估计(DE)的粗到精训练策略,旨在解决动态物体违反静态场景假设的问题。该方法利用室外场景中多数移动物体与地面接触的先验知识。在粗训练阶段,从重投影损失计算中排除动态类别的物体,以避免不准确的深度学习。为了精确监督物体的深度,提出了一种新的地面接触先验视差平滑损失(GDS-Loss),鼓励DE网络将物体的深度与其地面接触点对齐。随后,在精细训练阶段,通过重投影损失细化DE网络,以学习物体的详细深度,同时通过基于代价体(cost-volume)的加权因子的正则化损失,确保移动物体区域的准确DE。该粗到精训练策略可以轻松地与现有的DE方法集成,无需任何修改,从而显著提高Cityscapes和KITTI数据集上的DE性能,尤其是在移动物体区域。

🔬 方法详解

问题定义:自监督单目深度估计方法在训练时通常假设场景是静态的,这使得它们在处理包含移动物体的动态场景时表现不佳。移动物体违反了静态场景假设,导致深度估计不准确,进而影响整体性能。现有方法难以有效区分和处理动态物体,导致深度估计误差增大。

核心思路:论文的核心思路是利用移动物体通常与地面接触的先验知识,设计一种粗到精的训练策略。首先,在粗训练阶段,通过排除动态物体区域的损失计算,避免对这些区域进行错误的深度学习。然后,在精细训练阶段,利用地面接触先验信息,对动态物体的深度进行精确监督和细化。

技术框架:整体框架包含两个主要阶段:粗训练阶段和精细训练阶段。在粗训练阶段,使用标准的自监督深度估计损失函数,但排除动态物体区域的损失计算。同时,使用提出的GDS-Loss来约束动态物体的深度。在精细训练阶段,重新引入动态物体区域的重投影损失,并使用基于代价体的加权正则化损失,以确保在动态物体区域的深度估计精度。

关键创新:论文的关键创新点在于:1) 提出了基于地面接触先验的视差平滑损失(GDS-Loss),用于精确监督动态物体的深度;2) 设计了一种粗到精的训练策略,分阶段优化动态物体的深度估计;3) 使用基于代价体的加权正则化损失,以确保在精细训练阶段动态物体区域的深度估计精度。

关键设计:GDS-Loss的设计基于地面接触点,通过约束物体与其地面接触点之间的深度一致性来优化深度估计。代价体用于衡量像素之间的相似性,并用于生成加权因子,以控制正则化损失对不同区域的影响。粗训练阶段和精细训练阶段的损失函数权重需要仔细调整,以平衡不同阶段的学习目标。

📊 实验亮点

实验结果表明,该方法在Cityscapes和KITTI数据集上显著提升了深度估计性能。例如,在Cityscapes数据集上,该方法在移动物体区域的深度估计误差降低了X%。与现有自监督深度估计方法相比,该方法在动态场景下的深度估计精度得到了显著提高,尤其是在移动物体区域。

🎯 应用场景

该研究成果可应用于自动驾驶、机器人导航、增强现实等领域。在自动驾驶中,准确的深度估计对于感知周围环境、识别障碍物和规划行驶路径至关重要。在机器人导航中,深度信息可用于构建地图、定位自身和避开障碍物。在增强现实中,深度信息可用于将虚拟物体与真实场景进行精确对齐。

📄 摘要(原文)

Self-supervised monocular depth estimation (DE) is an approach to learning depth without costly depth ground truths. However, it often struggles with moving objects that violate the static scene assumption during training. To address this issue, we introduce a coarse-to-fine training strategy leveraging the ground contacting prior based on the observation that most moving objects in outdoor scenes contact the ground. In the coarse training stage, we exclude the objects in dynamic classes from the reprojection loss calculation to avoid inaccurate depth learning. To provide precise supervision on the depth of the objects, we present a novel Ground-contacting-prior Disparity Smoothness Loss (GDS-Loss) that encourages a DE network to align the depth of the objects with their ground-contacting points. Subsequently, in the fine training stage, we refine the DE network to learn the detailed depth of the objects from the reprojection loss, while ensuring accurate DE on the moving object regions by employing our regularization loss with a cost-volume-based weighting factor. Our overall coarse-to-fine training strategy can easily be integrated with existing DE methods without any modifications, significantly enhancing DE performance on challenging Cityscapes and KITTI datasets, especially in the moving object regions.