The Fourth Monocular Depth Estimation Challenge

📄 arXiv: 2504.17787v1 📥 PDF

作者: Anton Obukhov, Matteo Poggi, Fabio Tosi, Ripudaman Singh Arora, Jaime Spencer, Chris Russell, Simon Hadfield, Richard Bowden, Shuaihang Wang, Zhenxin Ma, Weijie Chen, Baobei Xu, Fengyu Sun, Di Xie, Jiang Zhu, Mykola Lavreniuk, Haining Guan, Qun Wu, Yupei Zeng, Chao Lu, Huanran Wang, Guangyuan Zhou, Haotian Zhang, Jianxiong Wang, Qiang Rao, Chunjie Wang, Xiao Liu, Zhiqiang Lou, Hualie Jiang, Yihao Chen, Rui Xu, Minglang Tan, Zihan Qin, Yifan Mao, Jiayang Liu, Jialei Xu, Yifan Yang, Wenbo Zhao, Junjun Jiang, Xianming Liu, Mingshuai Zhao, Anlong Ming, Wu Chen, Feng Xue, Mengying Yu, Shida Gao, Xiangfeng Wang, Gbenga Omotara, Ramy Farag, Jacket Demby, Seyed Mohamad Ali Tousi, Guilherme N DeSouza, Tuan-Anh Yang, Minh-Quang Nguyen, Thien-Phuc Tran, Albert Luginov, Muhammad Shahzad

分类: cs.CV

发布日期: 2025-04-24

备注: To appear in CVPRW2025


💡 一句话要点

第四届单目深度估计挑战赛聚焦零样本泛化,提升了自然和室内环境下的深度估计精度。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 单目深度估计 零样本学习 仿射不变性 深度学习 计算机视觉

📋 核心要点

  1. 单目深度估计在复杂环境下的零样本泛化能力仍然面临挑战,尤其是在自然和室内场景中。
  2. 本次挑战赛鼓励使用仿射不变预测,并采用新的评估协议,以更准确地衡量深度估计的性能。
  3. 挑战赛的获胜者在3D F-Score上取得了显著提升,表明了新的方法在零样本泛化方面的有效性。

📝 摘要(中文)

本文介绍了第四届单目深度估计挑战赛(MDEC)的结果,该挑战赛专注于零样本泛化到SYNS-Patches基准,这是一个包含自然和室内环境中具有挑战性环境的数据集。在本届比赛中,我们修改了评估协议,使用具有两个自由度的最小二乘对齐来支持视差和仿射不变预测。我们还修改了基线,并包括了流行的现成方法:Depth Anything v2和Marigold。挑战赛共收到24份提交,均优于测试集上的基线;其中10份包括描述其方法的报告,大多数领先方法都依赖于仿射不变预测。挑战赛的获胜者提高了上一届最佳结果的3D F-Score,从22.58%提高到23.05%。

🔬 方法详解

问题定义:单目深度估计旨在从单张图像中预测场景的深度信息。现有的方法在特定数据集上表现良好,但在面对新的、未见过的数据集时,泛化能力往往不足。尤其是在自然和室内等复杂场景中,光照变化、纹理缺失等因素会严重影响深度估计的准确性。本次挑战赛关注的是零样本泛化问题,即模型需要在没有目标数据集训练的情况下,直接在新数据集上进行深度估计,这对于模型的鲁棒性和泛化能力提出了更高的要求。

核心思路:本次挑战赛鼓励参赛者探索仿射不变预测方法。仿射变换包括平移、旋转、缩放和剪切等操作,这些变换在现实世界中非常常见。通过使模型对这些变换具有不变性,可以提高模型在不同场景下的泛化能力。此外,新的评估协议也考虑了视差和仿射变换的影响,从而更公平地评估不同方法的性能。

技术框架:本次挑战赛主要关注的是模型的零样本泛化能力,因此没有对模型的具体架构进行限制。参赛者可以使用各种深度学习模型,例如卷积神经网络(CNN)、Transformer等。关键在于如何设计模型,使其能够提取图像中的深度信息,并对仿射变换具有鲁棒性。挑战赛提供了一个基准数据集SYNS-Patches,用于评估不同方法的性能。

关键创新:本次挑战赛的关键创新在于强调了仿射不变预测的重要性,并采用了新的评估协议。传统的深度估计方法往往忽略了仿射变换的影响,导致在不同场景下的泛化能力较差。通过鼓励使用仿射不变预测方法,并采用新的评估协议,可以更准确地评估模型的性能,并推动深度估计领域的发展。

关键设计:具体的技术细节取决于参赛者所采用的方法。一些参赛者可能使用了数据增强技术,例如随机仿射变换,来训练模型,使其对仿射变换具有鲁棒性。另一些参赛者可能使用了特殊的网络结构,例如空间变换网络(STN),来显式地对图像进行仿射变换。此外,损失函数的选择也很重要,例如可以使用深度一致性损失来约束深度估计的准确性。

📊 实验亮点

本次挑战赛共有24份提交优于基线方法。其中,领先的方法主要依赖于仿射不变预测。最终,挑战赛的获胜者将3D F-Score从上一届的22.58%提高到了23.05%。这一结果表明,在零样本单目深度估计方面取得了显著进展,特别是在处理具有挑战性的自然和室内场景时。

🎯 应用场景

单目深度估计技术在许多领域都有广泛的应用前景,例如自动驾驶、机器人导航、增强现实、三维重建等。在自动驾驶领域,深度估计可以帮助车辆感知周围环境,从而实现安全导航。在机器人导航领域,深度估计可以帮助机器人理解场景,从而实现自主导航。在增强现实领域,深度估计可以帮助将虚拟物体与真实场景进行融合。在三维重建领域,深度估计可以帮助从单张图像中重建三维模型。

📄 摘要(原文)

This paper presents the results of the fourth edition of the Monocular Depth Estimation Challenge (MDEC), which focuses on zero-shot generalization to the SYNS-Patches benchmark, a dataset featuring challenging environments in both natural and indoor settings. In this edition, we revised the evaluation protocol to use least-squares alignment with two degrees of freedom to support disparity and affine-invariant predictions. We also revised the baselines and included popular off-the-shelf methods: Depth Anything v2 and Marigold. The challenge received a total of 24 submissions that outperformed the baselines on the test set; 10 of these included a report describing their approach, with most leading methods relying on affine-invariant predictions. The challenge winners improved the 3D F-Score over the previous edition's best result, raising it from 22.58% to 23.05%.