M${^2}$Depth: Self-supervised Two-Frame Multi-camera Metric Depth Estimation
作者: Yingshuang Zou, Yikang Ding, Xi Qiu, Haoqian Wang, Haotian Zhang
分类: cs.CV
发布日期: 2024-05-03
💡 一句话要点
M${^2}$Depth:面向自动驾驶,提出自监督双帧多相机度量深度估计方法
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 深度估计 自监督学习 多相机 时序信息 自动驾驶 时空融合 神经先验
📋 核心要点
- 现有方法在自动驾驶场景下,难以有效利用多相机和时序信息进行精确深度估计。
- M${^2}$Depth通过构建时空代价体并融合SAM特征,提升了深度估计的质量和鲁棒性。
- 在nuScenes和DDAD数据集上,M${^2}$Depth取得了SOTA性能,验证了方法的有效性。
📝 摘要(中文)
本文提出了一种新颖的自监督双帧多相机度量深度估计网络M${^2}$Depth,旨在预测自动驾驶中可靠的、具有尺度感知的周围环境深度。与以往使用单时间步的多视角图像或单相机多时间步图像的方法不同,M${^2}$Depth以来自多个相机的时间上相邻的两帧图像作为输入,并生成高质量的周围环境深度。我们首先在空间和时间域中分别构建代价体,并提出了一个时空融合模块,该模块集成了时空信息以产生强大的体表示。此外,我们将来自SAM特征的神经先验与内部特征相结合,以减少前景和背景之间的歧义,并加强深度边缘。在nuScenes和DDAD基准上的大量实验结果表明,M${^2}$Depth实现了最先进的性能。更多结果可在https://heiheishuang.xyz/M2Depth 找到。
🔬 方法详解
问题定义:论文旨在解决自动驾驶场景下,如何利用多相机和时序信息进行精确的、具有尺度感知的周围环境深度估计问题。现有方法通常只使用单时间步的多视角图像或单相机多时间步图像,无法充分利用时空信息,导致深度估计精度受限,尤其是在遮挡和光照变化等复杂情况下。
核心思路:论文的核心思路是同时利用来自多个相机的时间上相邻的两帧图像,构建时空代价体,并设计时空融合模块来整合这些信息。此外,引入SAM(Segment Anything Model)的特征作为神经先验,辅助区分前景和背景,从而提高深度估计的准确性和鲁棒性。
技术框架:M${^2}$Depth的整体框架包括以下几个主要步骤:1) 输入多相机采集到的两帧时序图像;2) 分别在空间域和时间域构建代价体;3) 使用时空融合模块融合空间和时间代价体,得到更强的体表示;4) 结合SAM特征的神经先验和内部特征,进行深度预测。
关键创新:该方法最重要的创新点在于:1) 提出了时空融合模块,能够有效地整合多相机和时序信息,从而提高深度估计的精度;2) 将SAM特征作为神经先验引入深度估计网络,减少了前景和背景之间的歧义,增强了深度边缘。与现有方法相比,M${^2}$Depth能够更充分地利用时空信息和语义信息,从而实现更精确的深度估计。
关键设计:论文中关键的设计包括:1) 时空融合模块的具体结构,例如使用卷积神经网络进行特征提取和融合;2) SAM特征的融合方式,例如使用注意力机制或直接拼接;3) 损失函数的设计,例如使用光度一致性损失和深度平滑损失等;4) 网络结构的参数设置,例如卷积核的大小、通道数等。这些设计细节对最终的深度估计性能至关重要。
🖼️ 关键图片
📊 实验亮点
M${^2}$Depth在nuScenes和DDAD数据集上取得了state-of-the-art的性能。具体来说,相较于之前的最佳方法,在深度估计的各项指标上均有显著提升,尤其是在复杂场景下的深度估计精度得到了明显改善。实验结果充分验证了该方法在自动驾驶场景下的有效性和优越性。
🎯 应用场景
该研究成果可广泛应用于自动驾驶领域,为车辆提供更精确的环境感知能力,从而提高行驶安全性。此外,该方法也可应用于机器人导航、三维重建、虚拟现实等领域,具有重要的实际应用价值和广阔的发展前景。未来,可以进一步探索如何将该方法与其他传感器(如激光雷达)的数据融合,以实现更鲁棒和精确的环境感知。
📄 摘要(原文)
This paper presents a novel self-supervised two-frame multi-camera metric depth estimation network, termed M${^2}$Depth, which is designed to predict reliable scale-aware surrounding depth in autonomous driving. Unlike the previous works that use multi-view images from a single time-step or multiple time-step images from a single camera, M${^2}$Depth takes temporally adjacent two-frame images from multiple cameras as inputs and produces high-quality surrounding depth. We first construct cost volumes in spatial and temporal domains individually and propose a spatial-temporal fusion module that integrates the spatial-temporal information to yield a strong volume presentation. We additionally combine the neural prior from SAM features with internal features to reduce the ambiguity between foreground and background and strengthen the depth edges. Extensive experimental results on nuScenes and DDAD benchmarks show M${^2}$Depth achieves state-of-the-art performance. More results can be found in https://heiheishuang.xyz/M2Depth .