All-day Depth Completion

📄 arXiv: 2405.17315v1 📥 PDF

作者: Vadim Ezhov, Hyoungseob Park, Zhaoyang Zhang, Rishi Upadhyay, Howard Zhang, Chethan Chinder Chandrappa, Achuta Kadambi, Yunhao Ba, Julie Dorsey, Alex Wong

分类: cs.CV

发布日期: 2024-05-27

备注: 8 pages, 4 figures


💡 一句话要点

提出一种全天候深度补全方法,通过多传感器融合和不确定性引导的残差学习,提升弱光环境下的深度估计精度。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 深度补全 多传感器融合 弱光照 不确定性估计 残差学习 全天候感知 自动驾驶

📋 核心要点

  1. 现有深度补全方法在弱光照条件下性能显著下降,因为光度信息不足以推断局部形状。
  2. 提出一种多传感器融合方法,利用激光雷达提供的稀疏深度信息作为先验,并结合图像信息进行深度补全。
  3. 实验结果表明,该方法在全天候场景下优于现有基线方法,尤其在夜间场景中提升显著。

📝 摘要(中文)

本文提出了一种在不同光照条件下(白天和夜晚)进行深度估计的方法。由于光度信息在低照度区域不具有信息量,我们采用多传感器融合方法来解决这个问题,输入包括同步的稀疏点云(例如来自激光雷达)投影到图像平面上的稀疏深度图,以及相机图像。该方法的核心在于利用大量可用的合成数据,首先通过学习从稀疏到(粗略)稠密深度图的映射以及它们的预测不确定性来近似3D场景结构——我们称之为SpaDe。在光度强度不足以推断局部形状的弱光区域,场景深度的粗略近似作为先验;然后将不确定性图与图像一起使用,通过不确定性驱动的残差学习(URL)方案来指导细化。由此产生的深度补全网络利用了两种模态的互补优势——深度是稀疏的,但对光照不敏感且具有度量尺度,而图像是密集的,但对尺度模糊敏感。SpaDe可以即插即用,当添加到现有方法中以预处理稀疏深度时,可以提高25%。我们在nuScenes数据集上展示了URL,在全天候场景中,我们比所有基线平均提高了11.65%,在专门针对白天进行测试时提高了11.23%,在夜间场景中提高了13.12%。

🔬 方法详解

问题定义:论文旨在解决全天候(白天和夜晚)场景下的深度补全问题。现有方法在光照条件良好时表现良好,但在弱光或无光照条件下,由于缺乏可靠的光度信息,深度估计的准确性会显著下降。现有的深度补全方法难以有效利用稀疏深度信息,并且容易受到光照变化的影响。

核心思路:论文的核心思路是利用多传感器融合,结合激光雷达提供的稀疏深度信息和相机图像,克服弱光照条件下的深度估计难题。通过学习稀疏深度到稠密深度的映射,并利用不确定性估计来指导深度补全过程,从而提高深度估计的鲁棒性和准确性。

技术框架:该方法包含两个主要阶段:1) SpaDe (Sparse-to-Dense) 阶段,利用合成数据学习从稀疏深度图到粗略稠密深度图的映射,并估计预测的不确定性。2) URL (Uncertainty-driven Residual Learning) 阶段,利用SpaDe阶段生成的粗略深度图和不确定性图,结合图像信息,通过残差学习的方式对深度图进行细化。整体流程是先用SpaDe生成一个粗略的深度图,然后用URL模块利用图像信息和不确定性信息对深度图进行精细化。

关键创新:该方法最重要的创新点在于利用不确定性估计来指导残差学习过程。通过估计SpaDe阶段预测的不确定性,可以有效地指导URL阶段的深度图细化,从而提高深度估计的准确性和鲁棒性。此外,利用合成数据进行预训练,可以有效地提高模型在真实场景中的泛化能力。

关键设计:SpaDe阶段使用深度学习模型学习稀疏深度到稠密深度的映射,并输出不确定性图。URL阶段使用残差学习框架,利用图像信息和不确定性图对深度图进行细化。损失函数的设计考虑了深度估计的准确性和不确定性,通过最小化深度估计误差和不确定性来优化模型参数。具体的网络结构和参数设置在论文中有详细描述,但此处未给出。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在nuScenes数据集上优于所有基线方法,在全天候场景中平均提高了11.65%,在白天场景中提高了11.23%,在夜间场景中提高了13.12%。SpaDe模块可以即插即用,当添加到现有方法中以预处理稀疏深度时,可以提高25%。这些结果表明,该方法在全天候深度补全方面具有显著的优势。

🎯 应用场景

该研究成果可应用于自动驾驶、机器人导航、增强现实等领域。在自动驾驶中,全天候深度感知能力对于车辆的安全行驶至关重要。在机器人导航中,该方法可以帮助机器人在复杂光照条件下进行环境感知和路径规划。在增强现实中,该方法可以提供更准确的深度信息,从而提高AR体验的真实感。

📄 摘要(原文)

We propose a method for depth estimation under different illumination conditions, i.e., day and night time. As photometry is uninformative in regions under low-illumination, we tackle the problem through a multi-sensor fusion approach, where we take as input an additional synchronized sparse point cloud (i.e., from a LiDAR) projected onto the image plane as a sparse depth map, along with a camera image. The crux of our method lies in the use of the abundantly available synthetic data to first approximate the 3D scene structure by learning a mapping from sparse to (coarse) dense depth maps along with their predictive uncertainty - we term this, SpaDe. In poorly illuminated regions where photometric intensities do not afford the inference of local shape, the coarse approximation of scene depth serves as a prior; the uncertainty map is then used with the image to guide refinement through an uncertainty-driven residual learning (URL) scheme. The resulting depth completion network leverages complementary strengths from both modalities - depth is sparse but insensitive to illumination and in metric scale, and image is dense but sensitive with scale ambiguity. SpaDe can be used in a plug-and-play fashion, which allows for 25% improvement when augmented onto existing methods to preprocess sparse depth. We demonstrate URL on the nuScenes dataset where we improve over all baselines by an average 11.65% in all-day scenarios, 11.23% when tested specifically for daytime, and 13.12% for nighttime scenes.