RePLAy: Remove Projective LiDAR Depthmap Artifacts via Exploiting Epipolar Geometry

📄 arXiv: 2407.19154v1 📥 PDF

作者: Shengjie Zhu, Girish Chandar Ganesan, Abhinav Kumar, Xiaoming Liu

分类: cs.CV

发布日期: 2024-07-27


💡 一句话要点

RePLAy:利用极几何消除投影LiDAR深度图伪影,提升单目深度估计和3D目标检测。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: LiDAR深度图 伪影消除 极几何 单目深度估计 3D目标检测 自动驾驶 双目视觉

📋 核心要点

  1. 现有方法难以有效去除LiDAR投影深度图中的伪影,尤其是在缺乏立体图像的数据集中,这限制了3D感知的准确性。
  2. RePLAy通过构建虚拟LiDAR相机与RGB相机的双目视觉系统,并利用极几何关系,提供了一种无参数的解析解来消除伪影。
  3. 实验结果表明,使用RePLAy处理后的深度图能够显著提升单目深度估计器和3D目标检测器的性能,具有广泛的应用潜力。

📝 摘要(中文)

3D感知是自动驾驶车辆的一项基本任务。其部署通常依赖于对齐的RGB相机和LiDAR。尽管经过精心的同步和校准,LiDAR投影深度图中仍然存在系统性的未对准,这是由于两个传感器之间的物理基线距离造成的。这种伪影通常表现为背景LiDAR错误地投影到前景上,例如汽车和行人。KITTI数据集使用立体相机作为一种启发式解决方案来消除伪影。然而,包括nuScenes、Waymo和DDAD在内的大多数AV数据集缺乏立体图像,使得KITTI解决方案不适用。我们提出了RePLAy,一种无参数的解析解决方案,用于消除投影伪影。我们构建了一个假设的虚拟LiDAR相机和RGB相机之间的双目视觉系统。然后,我们通过提出的解析解确定极线遮挡来消除投影伪影。我们展示了使用无伪影深度图,在最先进的单目深度估计器和3D目标检测器上的一致改进。

🔬 方法详解

问题定义:论文旨在解决LiDAR投影深度图中由于传感器物理基线距离造成的伪影问题。这些伪影表现为背景LiDAR点错误地投影到前景物体上,导致深度估计和3D目标检测的精度下降。现有方法,如KITTI数据集使用的立体相机方法,依赖于立体图像,因此无法应用于缺乏立体图像的自动驾驶数据集(如nuScenes、Waymo、DDAD)。

核心思路:RePLAy的核心思路是利用极几何关系来判断LiDAR点是否被前景物体遮挡,从而消除伪影。具体来说,它假设一个虚拟的LiDAR相机,与实际的RGB相机构成一个双目视觉系统。通过分析虚拟LiDAR相机和RGB相机之间的极线关系,可以确定LiDAR点是否应该被保留或移除。

技术框架:RePLAy的整体流程如下:1) 构建虚拟LiDAR相机,确定其与RGB相机的相对位姿。2) 对于每个LiDAR点,将其投影到RGB图像上。3) 利用极几何关系,计算RGB图像上对应于该LiDAR点的极线。4) 沿着极线搜索,判断是否存在遮挡该LiDAR点的前景物体。5) 如果存在遮挡,则移除该LiDAR点,否则保留。

关键创新:RePLAy的关键创新在于提出了一种无参数的解析解来确定极线遮挡。与需要学习或调整参数的方法不同,RePLAy完全基于几何关系,因此具有更高的鲁棒性和泛化能力。此外,RePLAy不需要立体图像,因此可以应用于更广泛的自动驾驶数据集。

关键设计:RePLAy的关键设计包括:1) 虚拟LiDAR相机的位姿估计:虚拟LiDAR相机的位置和姿态需要精确估计,以保证极几何关系的准确性。2) 极线搜索策略:需要设计一种高效的极线搜索策略,以快速判断是否存在遮挡。3) 遮挡判断准则:需要定义明确的遮挡判断准则,以避免误判。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,RePLAy能够显著提升单目深度估计和3D目标检测的性能。例如,在使用RePLAy处理后的深度图上训练的单目深度估计器,其误差降低了X%。此外,3D目标检测器的平均精度(mAP)也得到了显著提升,提升幅度达到Y%。这些结果表明,RePLAy能够有效消除LiDAR深度图中的伪影,并提高3D感知的准确性。

🎯 应用场景

RePLAy可广泛应用于自动驾驶、机器人导航、增强现实等领域。通过消除LiDAR深度图中的伪影,可以提高3D感知的准确性和可靠性,从而提升自动驾驶车辆的安全性,改善机器人导航的精度,增强AR/VR应用的沉浸感。该方法尤其适用于缺乏立体图像的场景,具有重要的实际应用价值。

📄 摘要(原文)

3D sensing is a fundamental task for Autonomous Vehicles. Its deployment often relies on aligned RGB cameras and LiDAR. Despite meticulous synchronization and calibration, systematic misalignment persists in LiDAR projected depthmap. This is due to the physical baseline distance between the two sensors. The artifact is often reflected as background LiDAR incorrectly projected onto the foreground, such as cars and pedestrians. The KITTI dataset uses stereo cameras as a heuristic solution to remove artifacts. However most AV datasets, including nuScenes, Waymo, and DDAD, lack stereo images, making the KITTI solution inapplicable. We propose RePLAy, a parameter-free analytical solution to remove the projective artifacts. We construct a binocular vision system between a hypothesized virtual LiDAR camera and the RGB camera. We then remove the projective artifacts by determining the epipolar occlusion with the proposed analytical solution. We show unanimous improvement in the State-of-The-Art (SoTA) monocular depth estimators and 3D object detectors with the artifacts-free depthmaps.