Cross-spectral Gated-RGB Stereo Depth Estimation
作者: Samuel Brucker, Stefanie Walz, Mario Bijelic, Felix Heide
分类: cs.CV
发布日期: 2024-05-21
💡 一句话要点
提出跨光谱门控RGB立体深度估计方法,提升远距离深度精度。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics) 支柱八:物理动画 (Physics-based Animation)
关键词: 深度估计 立体视觉 门控成像 多模态融合 跨光谱 主动照明 远距离感知
📋 核心要点
- 现有门控深度估计方法空间分辨率低于RGB成像方法,限制了其应用。
- 结合高分辨率立体RGB相机与门控成像,融合主动门控、多视角RGB和近红外深度线索。
- 实验结果表明,该方法在远距离深度估计精度上显著优于现有方法,MAE降低39%。
📝 摘要(中文)
本文提出了一种结合高分辨率立体HDR RCCB相机与门控成像的深度估计方法。该方法利用主动门控、多视角RGB和多视角近红外传感提供的深度线索,实现了全光谱范围内的多视角和门控线索融合。该系统仅由低成本CMOS传感器和泛光照明组成。我们提出了一种新颖的立体深度估计方法,能够利用这些多模态多视角深度线索,包括RCCB相机在移除红外截止滤光片时测量的主动照明。实验结果表明,该方法在远距离上实现了精确的深度估计,在100至220米的范围内,MAE指标上优于现有最佳方法39%。代码、模型和数据集已公开。
🔬 方法详解
问题定义:现有门控深度估计方法虽然能够提供高密度的深度信息,但其空间分辨率仍然低于传统的RGB成像方法,这限制了其在需要高分辨率深度信息的应用中的使用。此外,远距离深度估计仍然是一个挑战,尤其是在缺乏纹理的区域。
核心思路:本文的核心思路是结合主动门控成像技术和多视角立体视觉技术,利用不同光谱的信息来提高深度估计的精度和鲁棒性。通过融合RGB、近红外和门控图像的信息,可以克服单一模态的局限性,从而实现更准确的深度估计。
技术框架:该方法的技术框架主要包括以下几个步骤:1) 使用HDR RCCB相机获取多视角RGB和近红外图像;2) 使用门控相机获取主动照明下的深度信息;3) 对不同模态的图像进行校正和对齐;4) 使用深度神经网络融合不同模态的信息,进行深度估计。
关键创新:该方法最重要的技术创新点在于跨光谱的信息融合。通过将RGB、近红外和门控图像的信息进行有效融合,可以克服单一模态的局限性,从而实现更准确的深度估计。此外,该方法还利用了主动照明的信息,这可以提高在缺乏纹理的区域的深度估计精度。
关键设计:在网络结构方面,可能采用了某种形式的注意力机制,以便更好地融合不同模态的信息。损失函数的设计可能包括深度损失、图像重建损失等,以保证深度估计的准确性和图像的质量。具体的参数设置需要参考论文的详细描述。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在远距离深度估计方面取得了显著的提升。在100至220米的范围内,该方法在MAE指标上优于现有最佳方法39%。这一结果表明,该方法在远距离深度估计方面具有很强的竞争力。
🎯 应用场景
该研究成果可应用于自动驾驶、机器人导航、三维重建等领域。在自动驾驶中,精确的远距离深度估计对于车辆的安全至关重要。在机器人导航中,高分辨率的深度信息可以帮助机器人更好地理解周围环境。在三维重建中,该方法可以用于生成高质量的三维模型。
📄 摘要(原文)
Gated cameras flood-illuminate a scene and capture the time-gated impulse response of a scene. By employing nanosecond-scale gates, existing sensors are capable of capturing mega-pixel gated images, delivering dense depth improving on today's LiDAR sensors in spatial resolution and depth precision. Although gated depth estimation methods deliver a million of depth estimates per frame, their resolution is still an order below existing RGB imaging methods. In this work, we combine high-resolution stereo HDR RCCB cameras with gated imaging, allowing us to exploit depth cues from active gating, multi-view RGB and multi-view NIR sensing -- multi-view and gated cues across the entire spectrum. The resulting capture system consists only of low-cost CMOS sensors and flood-illumination. We propose a novel stereo-depth estimation method that is capable of exploiting these multi-modal multi-view depth cues, including the active illumination that is measured by the RCCB camera when removing the IR-cut filter. The proposed method achieves accurate depth at long ranges, outperforming the next best existing method by 39% for ranges of 100 to 220m in MAE on accumulated LiDAR ground-truth. Our code, models and datasets are available at https://light.princeton.edu/gatedrccbstereo/ .