A Systematic Literature Review on Deep Learning-based Depth Estimation in Computer Vision

📄 arXiv: 2501.05147v1 📥 PDF

作者: Ali Rohan, Md Junayed Hasan, Andrei Petrovski

分类: cs.CV, cs.AI, cs.RO

发布日期: 2025-01-09


💡 一句话要点

深度学习深度估计综述:系统性回顾单目、双目和多视角方法,并分析数据集与评价指标。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 深度估计 深度学习 系统性文献综述 计算机视觉 三维重建

📋 核心要点

  1. 传统深度估计方法依赖手工特征,泛化性差且需手动调整,难以适应复杂场景。
  2. 本文通过系统性文献综述,全面分析了基于深度学习的单目、双目和多视角深度估计方法。
  3. 综述分析了常用数据集、评估指标和基础模型,并指出了当前深度估计研究面临的挑战。

📝 摘要(中文)

深度估计(DE)提供场景的空间信息,并支持三维重建、目标检测和场景理解等任务。近年来,基于深度学习(DL)的方法在DE中引起了越来越多的关注。传统技术依赖于手工设计的特征,这些特征通常难以泛化到不同的场景,并且需要大量的手动调整。然而,用于DE的DL模型可以自动从输入数据中提取相关特征,适应各种场景条件,并很好地泛化到未见过的环境中。已经开发了许多基于DL的方法,因此有必要对最先进的技术(SOTA)进行调查和综合。以往关于DE的综述主要集中在单目或双目技术上,而不是全面地回顾DE。此外,据我们所知,还没有系统性的文献综述(SLR)全面关注DE。因此,本SLR研究正在进行中。最初,在电子数据库中搜索相关的出版物,得到1284篇出版物。使用定义的排除和质量标准,筛选出128篇出版物,并进一步筛选出59篇高质量的主要研究。分析这些研究以提取数据并回答定义的研究问题。根据结果,DL方法主要针对三种不同类型的DE开发:单目、双目和多视角。20个公开可用的数据集被用于训练、测试和评估DE的DL模型,其中KITTI、NYU Depth V2和Make 3D是最常用的数据集。29个评估指标被用于评估DE的性能。主要研究报告了35个基础模型,其中最常用的五个基础模型是ResNet-50、ResNet-18、ResNet-101、U-Net和VGG-16。最后,缺乏ground truth数据是主要研究报告的最重要的挑战之一。

🔬 方法详解

问题定义:深度估计旨在从图像中恢复场景的深度信息。传统方法依赖手工特征,难以适应复杂多变的场景,泛化能力受限。深度学习方法虽然取得了显著进展,但缺乏系统性的综述来梳理不同方法的优劣和适用场景。

核心思路:本文采用系统性文献综述(SLR)的方法,对深度学习在深度估计领域的应用进行全面分析。通过设定明确的检索策略、筛选标准和数据提取方法,保证了综述的客观性和全面性。

技术框架:该综述首先通过电子数据库检索相关文献,然后根据预定义的排除和质量标准筛选出高质量的论文。接着,对筛选出的论文进行数据提取和分析,回答预先设定的研究问题。最后,对分析结果进行总结和归纳,得出结论并提出未来研究方向。

关键创新:本文是首个全面关注深度估计的系统性文献综述。它不仅涵盖了单目、双目和多视角深度估计方法,还分析了常用数据集、评估指标和基础模型,为研究人员提供了一个全面的参考框架。

关键设计:该综述采用了严格的文献筛选流程,确保纳入的论文具有较高的质量。同时,定义了明确的数据提取模板,保证了数据提取的一致性和准确性。此外,还对研究问题进行了精心设计,涵盖了深度估计的各个方面。

📊 实验亮点

该综述分析了59篇高质量的深度学习深度估计论文,涵盖了单目、双目和多视角方法。结果表明,KITTI、NYU Depth V2和Make 3D是最常用的数据集,ResNet-50、ResNet-18、ResNet-101、U-Net和VGG-16是最常用的基础模型。此外,该综述还指出了缺乏ground truth数据是当前研究面临的主要挑战。

🎯 应用场景

该研究成果可应用于三维重建、机器人导航、自动驾驶、增强现实等领域。准确的深度估计能够提升这些应用在复杂环境下的性能和鲁棒性,例如,自动驾驶系统可以利用深度信息进行障碍物检测和路径规划。

📄 摘要(原文)

Depth estimation (DE) provides spatial information about a scene and enables tasks such as 3D reconstruction, object detection, and scene understanding. Recently, there has been an increasing interest in using deep learning (DL)-based methods for DE. Traditional techniques rely on handcrafted features that often struggle to generalise to diverse scenes and require extensive manual tuning. However, DL models for DE can automatically extract relevant features from input data, adapt to various scene conditions, and generalise well to unseen environments. Numerous DL-based methods have been developed, making it necessary to survey and synthesize the state-of-the-art (SOTA). Previous reviews on DE have mainly focused on either monocular or stereo-based techniques, rather than comprehensively reviewing DE. Furthermore, to the best of our knowledge, there is no systematic literature review (SLR) that comprehensively focuses on DE. Therefore, this SLR study is being conducted. Initially, electronic databases were searched for relevant publications, resulting in 1284 publications. Using defined exclusion and quality criteria, 128 publications were shortlisted and further filtered to select 59 high-quality primary studies. These studies were analysed to extract data and answer defined research questions. Based on the results, DL methods were developed for mainly three different types of DE: monocular, stereo, and multi-view. 20 publicly available datasets were used to train, test, and evaluate DL models for DE, with KITTI, NYU Depth V2, and Make 3D being the most used datasets. 29 evaluation metrics were used to assess the performance of DE. 35 base models were reported in the primary studies, and the top five most-used base models were ResNet-50, ResNet-18, ResNet-101, U-Net, and VGG-16. Finally, the lack of ground truth data was among the most significant challenges reported by primary studies.