DepthCues: Evaluating Monocular Depth Perception in Large Vision Models

📄 arXiv: 2411.17385v3 📥 PDF

作者: Duolikun Danier, Mehmet Aygün, Changjian Li, Hakan Bilen, Oisin Mac Aodha

分类: cs.CV

发布日期: 2024-11-26 (更新: 2025-03-19)

备注: Accepted to CVPR 2025. Project page: https://danier97.github.io/depthcues/


💡 一句话要点

DepthCues:评估大型视觉模型中的单目深度感知能力

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 单目深度估计 深度线索 大型视觉模型 基准测试 深度感知

📋 核心要点

  1. 大型视觉模型在无显式深度监督下如何具备深度感知能力仍是未解之谜。
  2. 论文提出DepthCues基准,评估模型对单目深度线索的理解程度,模拟人类视觉系统。
  3. 实验表明,更大更新的模型涌现出类人深度线索,且在DepthCues上微调可提升深度估计。

📝 摘要(中文)

大规模预训练视觉模型日益普及,它们提供富有表现力和泛化能力的视觉表征,从而有益于各种下游任务。最近关于这些模型涌现属性的研究表明,它们具有高层次的几何理解能力,特别是在深度感知方面。然而,尚不清楚深度感知是如何在这些模型中产生的,因为预训练期间没有提供显式的深度监督。为了研究这一点,我们检查了单目深度线索(类似于人类视觉系统使用的线索)是否在这些模型中涌现。我们引入了一个新的基准测试DepthCues,旨在评估深度线索理解能力,并展示了20个不同且具有代表性的预训练视觉模型的结果。我们的分析表明,类人的深度线索出现在更新、更大的模型中。我们还探索了通过在DepthCues上进行微调来增强大型视觉模型中的深度感知能力,并发现即使没有密集的深度监督,这也能提高深度估计的性能。为了支持进一步的研究,我们的基准测试和评估代码将公开提供,用于研究视觉模型中的深度感知。

🔬 方法详解

问题定义:论文旨在研究大型预训练视觉模型在没有显式深度监督的情况下,是否能够学习并利用单目深度线索进行深度感知。现有方法缺乏对模型深度感知能力的细致评估,特别是对模型如何利用单目线索的理解不足。

核心思路:论文的核心思路是构建一个专门的基准测试集DepthCues,该基准侧重于评估模型对各种单目深度线索的理解能力。通过分析模型在DepthCues上的表现,可以推断出模型是否以及如何利用这些线索进行深度感知。

技术框架:论文的技术框架主要包括以下几个部分:1) 构建DepthCues基准测试集,该数据集包含多种单目深度线索。2) 选择20个具有代表性的大型预训练视觉模型进行评估。3) 设计评估指标,用于衡量模型对不同深度线索的理解程度。4) 通过微调实验,验证在DepthCues上微调是否能够提升模型的深度感知能力。

关键创新:论文的关键创新在于提出了DepthCues基准测试集,该基准专门用于评估大型视觉模型对单目深度线索的理解能力。与以往的深度估计数据集不同,DepthCues更加关注模型对深度线索的显式利用,而非仅仅是预测准确的深度图。

关键设计:DepthCues基准包含多种单目深度线索,例如纹理梯度、相对大小、遮挡关系等。评估指标的设计侧重于衡量模型对这些线索的敏感程度。微调实验采用标准的监督学习方法,损失函数可以选择均方误差或Huber损失等。具体的网络结构取决于所选用的预训练模型。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,更大的、更新的预训练模型在DepthCues基准上表现更好,表明它们能够更好地理解和利用单目深度线索。通过在DepthCues上进行微调,即使没有密集的深度监督,也能显著提高模型的深度估计性能。这些结果验证了DepthCues基准的有效性,并为进一步研究大型视觉模型中的深度感知能力提供了新的思路。

🎯 应用场景

该研究成果可应用于机器人导航、自动驾驶、场景理解等领域。通过理解模型如何利用单目深度线索,可以设计更鲁棒、更高效的视觉系统。此外,DepthCues基准的发布将促进相关领域的研究,推动深度感知技术的进步,并为开发更智能的AI系统奠定基础。

📄 摘要(原文)

Large-scale pre-trained vision models are becoming increasingly prevalent, offering expressive and generalizable visual representations that benefit various downstream tasks. Recent studies on the emergent properties of these models have revealed their high-level geometric understanding, in particular in the context of depth perception. However, it remains unclear how depth perception arises in these models without explicit depth supervision provided during pre-training. To investigate this, we examine whether the monocular depth cues, similar to those used by the human visual system, emerge in these models. We introduce a new benchmark, DepthCues, designed to evaluate depth cue understanding, and present findings across 20 diverse and representative pre-trained vision models. Our analysis shows that human-like depth cues emerge in more recent larger models. We also explore enhancing depth perception in large vision models by fine-tuning on DepthCues, and find that even without dense depth supervision, this improves depth estimation. To support further research, our benchmark and evaluation code will be made publicly available for studying depth perception in vision models.