Dusk Till Dawn: Self-supervised Nighttime Stereo Depth Estimation using Visual Foundation Models

作者: Madhu Vankadari, Samuel Hodgson, Sangyun Shin, Kaichen Zhou Andrew Markham, Niki Trigoni

分类: cs.CV, cs.RO

发布日期: 2024-05-18

备注: The paper is published at ICRA 2024

🔗 代码/项目: GITHUB

💡 一句话要点

提出基于视觉基础模型的自监督夜间立体深度估计方法，提升弱光环境下的深度预测精度。

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 夜间深度估计 自监督学习 立体视觉 视觉基础模型 弱光环境 特征匹配 光度一致性

📋 核心要点

现有自监督深度估计方法在夜间等弱光照、低能见度场景下性能显著下降，主要原因是光照变化导致帧扭曲关系失效。
利用预训练视觉基础模型提取的通用特征，进行立体匹配和融合，并设计掩码方法过滤违反光度一致性的像素，提升夜间深度估计的鲁棒性。
在 Oxford RobotCar 和 Multi-Spectral Stereo 等数据集上的实验表明，该方法能够有效提升夜间场景下的深度估计精度。

📝 摘要（中文）

自监督深度估计算法严重依赖于帧扭曲关系，在低能见度和具有变化光照条件的夜间等挑战性环境中，性能会显著下降。为了解决这个问题，我们提出了一种算法，旨在实现精确的自监督立体深度估计，特别关注夜间条件。具体来说，我们使用预训练的视觉基础模型来提取跨越挑战性场景的通用特征，并提出了一种有效的方法来匹配和整合来自立体帧的这些特征。此外，为了防止违反光度一致性假设的像素对深度预测产生负面影响，我们提出了一种新颖的掩码方法，旨在过滤掉这些像素。最后，为了解决当前深度估计算法评估中的弱点，我们提出了新的评估指标。我们在包括 Oxford RobotCar 和 Multi-Spectral Stereo 在内的具有挑战性的数据集上进行的实验证明了我们方法实现的稳健改进。

🔬 方法详解

问题定义：论文旨在解决夜间或低光照条件下，自监督立体深度估计精度低的问题。现有方法依赖于光度一致性假设，在光照变化剧烈的夜间场景中，这一假设不再成立，导致深度估计性能显著下降。此外，现有深度估计算法的评估指标也存在不足，难以全面反映算法的性能。

核心思路：论文的核心思路是利用预训练的视觉基础模型提取对光照变化具有鲁棒性的通用特征，并设计一种掩码机制来过滤掉违反光度一致性假设的像素。通过这种方式，可以减少光照变化对深度估计的影响，提高夜间场景下的深度预测精度。

技术框架：该方法主要包含以下几个模块：1) 使用预训练的视觉基础模型提取立体图像对的特征；2) 设计特征匹配模块，用于寻找立体图像对之间的对应关系；3) 提出一种掩码方法，用于过滤掉违反光度一致性假设的像素；4) 利用匹配的特征和掩码后的像素，进行深度估计；5) 使用新的评估指标对深度估计结果进行评估。

关键创新：该方法最重要的创新点在于利用预训练的视觉基础模型提取通用特征，并将其应用于夜间立体深度估计。与传统方法相比，这种方法能够更好地应对光照变化带来的挑战，提高深度估计的鲁棒性。此外，提出的掩码方法和新的评估指标也为夜间深度估计提供了新的思路。

关键设计：论文中使用了预训练的视觉基础模型（具体模型未知）来提取特征。掩码方法的设计细节（例如，如何判断像素是否违反光度一致性假设）以及损失函数的具体形式（例如，是否使用了光度损失、平滑损失等）在论文中没有详细说明。立体匹配的具体算法也未知。

🖼️ 关键图片

📊 实验亮点

论文在 Oxford RobotCar 和 Multi-Spectral Stereo 等具有挑战性的数据集上进行了实验，结果表明该方法能够显著提升夜间场景下的深度估计精度。具体的性能数据（例如，深度估计误差的降低幅度）和对比基线（例如，传统自监督深度估计方法）在摘要中没有给出，需要在论文正文中查找。

🎯 应用场景

该研究成果可应用于自动驾驶、机器人导航、安防监控等领域，尤其是在夜间或低光照环境下的应用。高精度的夜间深度估计可以提高自动驾驶车辆在夜间的感知能力，增强机器人在黑暗环境中的导航能力，提升安防监控系统在夜间的监控效果，具有重要的实际应用价值和广阔的应用前景。

📄 摘要（原文）

Self-supervised depth estimation algorithms rely heavily on frame-warping relationships, exhibiting substantial performance degradation when applied in challenging circumstances, such as low-visibility and nighttime scenarios with varying illumination conditions. Addressing this challenge, we introduce an algorithm designed to achieve accurate self-supervised stereo depth estimation focusing on nighttime conditions. Specifically, we use pretrained visual foundation models to extract generalised features across challenging scenes and present an efficient method for matching and integrating these features from stereo frames. Moreover, to prevent pixels violating photometric consistency assumption from negatively affecting the depth predictions, we propose a novel masking approach designed to filter out such pixels. Lastly, addressing weaknesses in the evaluation of current depth estimation algorithms, we present novel evaluation metrics. Our experiments, conducted on challenging datasets including Oxford RobotCar and Multi-Spectral Stereo, demonstrate the robust improvements realized by our approach. Code is available at: https://github.com/madhubabuv/dtd

Dusk Till Dawn: Self-supervised Nighttime Stereo Depth Estimation using Visual Foundation Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理