CaFNet: A Confidence-Driven Framework for Radar Camera Depth Estimation

📄 arXiv: 2407.00697v3 📥 PDF

作者: Huawei Sun, Hao Feng, Julius Ott, Lorenzo Servadei, Robert Wille

分类: cs.CV, cs.AI, eess.SP

发布日期: 2024-06-30 (更新: 2024-08-30)

备注: Accepted by IROS 2024

🔗 代码/项目: GITHUB


💡 一句话要点

提出CaFNet,利用雷达置信度提升雷达相机深度估计精度

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 雷达相机融合 深度估计 置信度感知 自动驾驶 多模态融合

📋 核心要点

  1. 雷达相机深度估计对自动驾驶至关重要,但现有方法难以有效处理雷达数据中的噪声和高度模糊性。
  2. CaFNet通过预测雷达置信度图来量化雷达数据的可靠性,并使用置信度感知的融合机制来整合雷达和图像特征。
  3. 在nuScenes数据集上,CaFNet在MAE和RMSE指标上分别优于现有最佳模型3.2%和2.7%,验证了其有效性。

📝 摘要(中文)

本文提出了一种两阶段、端到端可训练的置信度感知融合网络(CaFNet),用于密集深度估计,该网络结合了RGB图像和稀疏且带有噪声的雷达点云数据。第一阶段通过预测雷达置信度图和初步的粗略深度图来解决雷达特有的挑战,例如模糊的高度和噪声测量。提出了一种新方法来生成置信度图的ground truth,该方法涉及将每个雷达点与其对应的对象相关联,以识别潜在的投影表面。这些图以及初始雷达输入由第二个编码器处理。对于最终的深度估计,我们创新了一种置信度感知的门控融合机制,以有效地整合雷达和图像特征,从而通过过滤掉雷达噪声来提高深度图的可靠性。在nuScenes数据集上的评估表明,我们的方法优于当前领先的模型,在平均绝对误差(MAE)方面提高了3.2%,在均方根误差(RMSE)方面提高了2.7%。

🔬 方法详解

问题定义:雷达相机融合的深度估计旨在利用雷达的鲁棒性和相机的高分辨率,但雷达数据存在高度模糊和噪声问题,直接融合会降低深度估计的精度。现有方法通常难以有效区分雷达数据的可靠性,导致噪声干扰最终的深度预测。

核心思路:CaFNet的核心在于引入雷达置信度图,用于评估每个雷达点数据的可靠程度。通过置信度图,网络可以自适应地调整雷达和相机特征的融合比例,从而降低噪声雷达点的影响,提高深度估计的准确性。

技术框架:CaFNet是一个两阶段的网络结构。第一阶段,雷达数据经过编码器,同时预测粗略深度图和雷达置信度图。第二阶段,将雷达数据、粗略深度图和置信度图再次输入编码器,提取更高级的雷达特征。最后,使用置信度感知的门控融合机制,将雷达特征和相机特征进行融合,得到最终的深度估计结果。

关键创新:CaFNet的关键创新在于置信度感知的融合机制和置信度图的生成方法。置信度感知的融合机制可以根据雷达数据的可靠性自适应地调整融合权重,从而降低噪声的影响。置信度图的生成方法通过将雷达点与对应的3D对象关联,从而判断雷达点是否位于对象的表面,以此作为置信度的依据。

关键设计:置信度图的ground truth生成:将雷达点投影到图像上,并与3D bounding box进行关联,如果雷达点位于bounding box内部,则认为该雷达点是可靠的。置信度感知的门控融合机制:使用sigmoid函数将置信度图映射到0-1之间,作为门控信号,控制雷达特征的融合比例。损失函数:包括深度估计的L1损失和置信度预测的交叉熵损失。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

CaFNet在nuScenes数据集上取得了显著的性能提升。与当前最佳模型相比,CaFNet在平均绝对误差(MAE)上降低了3.2%,在均方根误差(RMSE)上降低了2.7%。这些结果表明,CaFNet能够更准确地估计场景深度,尤其是在处理噪声雷达数据方面表现出色。

🎯 应用场景

CaFNet可应用于自动驾驶、机器人导航等领域,提升环境感知的精度和鲁棒性。通过更准确的深度估计,自动驾驶系统可以更好地理解周围环境,从而做出更安全、更可靠的决策。该方法也有潜力应用于三维重建、虚拟现实等领域。

📄 摘要(原文)

Depth estimation is critical in autonomous driving for interpreting 3D scenes accurately. Recently, radar-camera depth estimation has become of sufficient interest due to the robustness and low-cost properties of radar. Thus, this paper introduces a two-stage, end-to-end trainable Confidence-aware Fusion Net (CaFNet) for dense depth estimation, combining RGB imagery with sparse and noisy radar point cloud data. The first stage addresses radar-specific challenges, such as ambiguous elevation and noisy measurements, by predicting a radar confidence map and a preliminary coarse depth map. A novel approach is presented for generating the ground truth for the confidence map, which involves associating each radar point with its corresponding object to identify potential projection surfaces. These maps, together with the initial radar input, are processed by a second encoder. For the final depth estimation, we innovate a confidence-aware gated fusion mechanism to integrate radar and image features effectively, thereby enhancing the reliability of the depth map by filtering out radar noise. Our methodology, evaluated on the nuScenes dataset, demonstrates superior performance, improving upon the current leading model by 3.2% in Mean Absolute Error (MAE) and 2.7% in Root Mean Square Error (RMSE). Code: https://github.com/harborsarah/CaFNet