Scalable Autoregressive Monocular Depth Estimation

📄 arXiv: 2411.11361v3 📥 PDF

作者: Jinhong Wang, Jian Liu, Dongqi Tang, Weiqiang Wang, Wentong Li, Danny Chen, Jintai Chen, Jian Wu

分类: cs.CV

发布日期: 2024-11-18 (更新: 2025-03-19)

备注: Accepted by CVPR2025


💡 一句话要点

提出可扩展的自回归单目深度估计模型DAR,显著提升深度估计精度。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 单目深度估计 自回归模型 深度学习 多分辨率 粗细粒度 零样本学习 可扩展性

📋 核心要点

  1. 现有单目深度估计方法在精度和泛化性上存在挑战,难以充分利用大规模数据。
  2. 论文提出深度自回归模型DAR,通过多分辨率和粗细粒度的自回归目标提升深度估计性能。
  3. 实验表明DAR在KITTI和NYU Depth v2数据集上取得SOTA结果,并展现出良好的零样本泛化能力。

📝 摘要(中文)

本文提出了一种有效的、可扩展的自回归模型用于单目深度估计。核心思想是:基于两个核心设计,采用自回归预测范式解决单目深度估计(MDE)任务。首先,深度自回归模型(DAR)将不同分辨率的深度图视为一组tokens,并使用patch-wise因果掩码执行由低到高的分辨率自回归目标。其次,DAR以序数回归的方式递归地将整个深度范围离散化为更紧凑的间隔,从而实现由粗到细粒度的自回归目标。通过耦合这两个自回归目标,DAR在KITTI和NYU Depth v2上建立了新的state-of-the-art(SOTA),并有明显的优势。此外,该方法的可扩展性允许将模型扩展到2.0B,并在KITTI数据集上实现了1.799的最佳RMSE(比当前SOTA Depth Anything 提高了5%,后者为1.896)。DAR进一步展示了在未见数据集上的零样本泛化能力。这些结果表明,DAR通过自回归预测范式产生了卓越的性能,为现代自回归大型模型(例如GPT-4o)配备深度估计能力提供了一种有希望的方法。

🔬 方法详解

问题定义:单目深度估计旨在从单张图像中预测场景的深度信息。现有方法通常依赖于复杂的网络结构和大量的监督数据,但仍然难以达到理想的精度和泛化能力。尤其是在处理大规模数据集时,现有方法的扩展性受到限制。

核心思路:论文的核心思路是利用自回归模型进行深度估计。通过将深度图视为一系列tokens,并采用自回归的方式逐步预测每个token的深度值,从而实现对深度信息的建模。这种方法能够有效地利用上下文信息,并具有良好的可扩展性。

技术框架:DAR模型的整体架构包含两个主要的自回归目标:多分辨率自回归和粗细粒度自回归。多分辨率自回归将不同分辨率的深度图视为tokens,并从低分辨率到高分辨率进行预测。粗细粒度自回归则通过递归地离散化深度范围,从粗略到精细地预测深度值。这两个目标相互耦合,共同提升深度估计的精度。

关键创新:DAR的关键创新在于将自回归模型应用于单目深度估计,并提出了多分辨率和粗细粒度的自回归目标。与传统的深度估计方法相比,DAR能够更好地利用上下文信息,并具有更强的可扩展性。此外,DAR还采用了patch-wise因果掩码,确保了自回归预测的正确性。

关键设计:在多分辨率自回归中,论文采用了patch-wise因果掩码,以确保每个token的预测只依赖于其之前的tokens。在粗细粒度自回归中,论文采用了序数回归的方式,将深度范围离散化为多个间隔,并逐步预测每个像素所属的间隔。损失函数方面,论文采用了交叉熵损失函数来衡量预测结果与真实值之间的差异。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DAR在KITTI数据集上取得了1.799的RMSE,相比当前SOTA方法Depth Anything (1.896) 提升了5%。在NYU Depth v2数据集上也取得了SOTA结果。此外,DAR还展示了良好的零样本泛化能力,在未见数据集上也能取得较好的深度估计效果。实验结果表明,DAR是一种有效的、可扩展的单目深度估计方法。

🎯 应用场景

该研究成果可广泛应用于自动驾驶、机器人导航、增强现实等领域。精确的深度估计能够帮助自动驾驶系统更好地理解周围环境,提高导航的安全性。在机器人领域,深度信息可以用于物体识别、场景重建等任务。在增强现实领域,深度估计可以用于虚拟物体的放置和交互。

📄 摘要(原文)

This paper shows that the autoregressive model is an effective and scalable monocular depth estimator. Our idea is simple: We tackle the monocular depth estimation (MDE) task with an autoregressive prediction paradigm, based on two core designs. First, our depth autoregressive model (DAR) treats the depth map of different resolutions as a set of tokens, and conducts the low-to-high resolution autoregressive objective with a patch-wise casual mask. Second, our DAR recursively discretizes the entire depth range into more compact intervals, and attains the coarse-to-fine granularity autoregressive objective in an ordinal-regression manner. By coupling these two autoregressive objectives, our DAR establishes new state-of-the-art (SOTA) on KITTI and NYU Depth v2 by clear margins. Further, our scalable approach allows us to scale the model up to 2.0B and achieve the best RMSE of 1.799 on the KITTI dataset (5% improvement) compared to 1.896 by the current SOTA (Depth Anything). DAR further showcases zero-shot generalization ability on unseen datasets. These results suggest that DAR yields superior performance with an autoregressive prediction paradigm, providing a promising approach to equip modern autoregressive large models (e.g., GPT-4o) with depth estimation capabilities.