Deep Learning-based Depth Estimation Methods from Monocular Image and Videos: A Comprehensive Survey

作者: Uchitha Rajapaksha, Ferdous Sohel, Hamid Laga, Dean Diepeveen, Mohammed Bennamoun

分类: cs.CV

发布日期: 2024-06-28

备注: 46 pages, 10 figures, The paper has been accepted for publication in ACM Computing Surveys 2024

DOI: 10.1145/3677327

💡 一句话要点

深度学习单目图像/视频深度估计方法综述：架构、监督与演进

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 单目深度估计 深度学习 综述 计算机视觉 自监督学习

📋 核心要点

单目深度估计面临缺乏精确深度信息的挑战，现有方法在复杂场景和泛化能力上存在不足。
本文通过对大量深度学习方法进行分类和分析，梳理了单目深度估计领域的发展脉络和关键技术。
该综述总结了不同架构、监督方式和数据集的影响，为未来研究提供了全面的参考和发展方向。

📝 摘要（中文）

由于在自动驾驶、3D重建、数字娱乐和机器人等领域的广泛应用，从单张RGB图像和视频中估计深度引起了广泛的兴趣。过去10年中，已经发表了500多篇基于深度学习的论文，这表明了对该任务日益增长的兴趣。本文对现有的基于深度学习的方法进行了全面的综述，包括它们所解决的挑战，以及它们在架构和监督方法上的演变。它提供了一个分类法，用于根据其输入和输出模态、网络架构和学习方法对当前工作进行分类。它还讨论了单目深度估计历史上的主要里程碑，以及现有方法中使用的不同pipeline、数据集和评估指标。

🔬 方法详解

问题定义：单目深度估计旨在从单个RGB图像或视频帧中预测场景的深度信息。现有方法的痛点在于：1）缺乏真实的深度信息作为监督信号；2）难以处理遮挡、光照变化等复杂场景；3）模型泛化能力不足，在不同数据集上的表现差异较大。

核心思路：本文的核心在于对现有基于深度学习的单目深度估计方法进行系统性的梳理和分类。通过分析不同方法的架构、监督方式和训练数据，总结出该领域的发展趋势和关键技术。核心思路是提供一个全面的视角，帮助研究人员快速了解该领域的研究现状和未来方向。

技术框架：该综述的技术框架主要包括以下几个方面：1）输入和输出模态的分类，例如单张图像、视频序列等；2）网络架构的分类，例如卷积神经网络、Transformer等；3）学习方法的分类，例如监督学习、自监督学习、半监督学习等；4）数据集和评估指标的总结。通过这些分类，可以清晰地了解不同方法的特点和适用场景。

关键创新：本文的创新之处在于其全面性和系统性。它不仅涵盖了大量的深度学习方法，而且对这些方法进行了深入的分析和比较。此外，本文还总结了单目深度估计领域的发展历程和未来趋势，为研究人员提供了有价值的参考。

关键设计：本文的关键设计在于其分类体系。通过将现有方法按照输入输出模态、网络架构和学习方法进行分类，可以清晰地了解不同方法的特点和适用场景。此外，本文还对常用的数据集和评估指标进行了总结，方便研究人员进行实验和比较。

📊 实验亮点

该综述涵盖了500多篇基于深度学习的单目深度估计论文，总结了不同方法的优缺点和适用场景。通过对这些方法的分析，可以发现基于Transformer的架构在性能上优于传统的卷积神经网络，自监督学习方法在缺乏真实深度信息的情况下也能取得较好的效果。此外，该综述还指出了未来研究的几个方向，例如如何提高模型的泛化能力和鲁棒性。

🎯 应用场景

单目深度估计在自动驾驶中用于环境感知和障碍物检测，在3D重建中用于生成场景的三维模型，在数字娱乐中用于增强现实和虚拟现实体验，在机器人领域用于导航和物体抓取。该研究的进展将推动这些领域的发展，提高系统的智能化水平和应用范围。

📄 摘要（原文）

Estimating depth from single RGB images and videos is of widespread interest due to its applications in many areas, including autonomous driving, 3D reconstruction, digital entertainment, and robotics. More than 500 deep learning-based papers have been published in the past 10 years, which indicates the growing interest in the task. This paper presents a comprehensive survey of the existing deep learning-based methods, the challenges they address, and how they have evolved in their architecture and supervision methods. It provides a taxonomy for classifying the current work based on their input and output modalities, network architectures, and learning methods. It also discusses the major milestones in the history of monocular depth estimation, and different pipelines, datasets, and evaluation metrics used in existing methods.

Deep Learning-based Depth Estimation Methods from Monocular Image and Videos: A Comprehensive Survey

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理