Cross-spectral Gated-RGB Stereo Depth Estimation

作者: Samuel Brucker, Stefanie Walz, Mario Bijelic, Felix Heide

分类: cs.CV

发布日期: 2024-05-21

💡 一句话要点

提出跨光谱门控RGB立体深度估计方法，提升远距离深度精度。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱三：空间感知与语义 (Perception & Semantics) 支柱八：物理动画 (Physics-based Animation)

关键词: 深度估计 立体视觉 门控成像 多模态融合 跨光谱 主动照明 远距离感知

📋 核心要点

现有门控深度估计方法空间分辨率低于RGB成像方法，限制了其应用。
结合高分辨率立体RGB相机与门控成像，融合主动门控、多视角RGB和近红外深度线索。
实验结果表明，该方法在远距离深度估计精度上显著优于现有方法，MAE降低39%。

📝 摘要（中文）

本文提出了一种结合高分辨率立体HDR RCCB相机与门控成像的深度估计方法。该方法利用主动门控、多视角RGB和多视角近红外传感提供的深度线索，实现了全光谱范围内的多视角和门控线索融合。该系统仅由低成本CMOS传感器和泛光照明组成。我们提出了一种新颖的立体深度估计方法，能够利用这些多模态多视角深度线索，包括RCCB相机在移除红外截止滤光片时测量的主动照明。实验结果表明，该方法在远距离上实现了精确的深度估计，在100至220米的范围内，MAE指标上优于现有最佳方法39%。代码、模型和数据集已公开。

🔬 方法详解

问题定义：现有门控深度估计方法虽然能够提供高密度的深度信息，但其空间分辨率仍然低于传统的RGB成像方法，这限制了其在需要高分辨率深度信息的应用中的使用。此外，远距离深度估计仍然是一个挑战，尤其是在缺乏纹理的区域。

核心思路：本文的核心思路是结合主动门控成像技术和多视角立体视觉技术，利用不同光谱的信息来提高深度估计的精度和鲁棒性。通过融合RGB、近红外和门控图像的信息，可以克服单一模态的局限性，从而实现更准确的深度估计。

技术框架：该方法的技术框架主要包括以下几个步骤：1) 使用HDR RCCB相机获取多视角RGB和近红外图像；2) 使用门控相机获取主动照明下的深度信息；3) 对不同模态的图像进行校正和对齐；4) 使用深度神经网络融合不同模态的信息，进行深度估计。

关键创新：该方法最重要的技术创新点在于跨光谱的信息融合。通过将RGB、近红外和门控图像的信息进行有效融合，可以克服单一模态的局限性，从而实现更准确的深度估计。此外，该方法还利用了主动照明的信息，这可以提高在缺乏纹理的区域的深度估计精度。

关键设计：在网络结构方面，可能采用了某种形式的注意力机制，以便更好地融合不同模态的信息。损失函数的设计可能包括深度损失、图像重建损失等，以保证深度估计的准确性和图像的质量。具体的参数设置需要参考论文的详细描述。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该方法在远距离深度估计方面取得了显著的提升。在100至220米的范围内，该方法在MAE指标上优于现有最佳方法39%。这一结果表明，该方法在远距离深度估计方面具有很强的竞争力。

🎯 应用场景

该研究成果可应用于自动驾驶、机器人导航、三维重建等领域。在自动驾驶中，精确的远距离深度估计对于车辆的安全至关重要。在机器人导航中，高分辨率的深度信息可以帮助机器人更好地理解周围环境。在三维重建中，该方法可以用于生成高质量的三维模型。

📄 摘要（原文）

Gated cameras flood-illuminate a scene and capture the time-gated impulse response of a scene. By employing nanosecond-scale gates, existing sensors are capable of capturing mega-pixel gated images, delivering dense depth improving on today's LiDAR sensors in spatial resolution and depth precision. Although gated depth estimation methods deliver a million of depth estimates per frame, their resolution is still an order below existing RGB imaging methods. In this work, we combine high-resolution stereo HDR RCCB cameras with gated imaging, allowing us to exploit depth cues from active gating, multi-view RGB and multi-view NIR sensing -- multi-view and gated cues across the entire spectrum. The resulting capture system consists only of low-cost CMOS sensors and flood-illumination. We propose a novel stereo-depth estimation method that is capable of exploiting these multi-modal multi-view depth cues, including the active illumination that is measured by the RCCB camera when removing the IR-cut filter. The proposed method achieves accurate depth at long ranges, outperforming the next best existing method by 39% for ranges of 100 to 220m in MAE on accumulated LiDAR ground-truth. Our code, models and datasets are available at https://light.princeton.edu/gatedrccbstereo/ .

Cross-spectral Gated-RGB Stereo Depth Estimation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理