Visual Autoregressive Modelling for Monocular Depth Estimation

📄 arXiv: 2512.22653v1 📥 PDF

作者: Amir El-Ghoussani, André Kaup, Nassir Navab, Gustavo Carneiro, Vasileios Belagiannis

分类: cs.CV

发布日期: 2025-12-27

🔗 代码/项目: GITHUB


💡 一句话要点

提出基于视觉自回归先验的单目深度估计方法,提升室内外场景深度预测精度。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱四:生成式动作 (Generative Motion)

关键词: 单目深度估计 视觉自回归模型 生成式建模 深度学习 无分类器指导

📋 核心要点

  1. 现有单目深度估计方法在数据可扩展性和泛化能力上存在挑战,尤其是在训练数据受限的情况下。
  2. 本文提出利用视觉自回归模型作为深度估计的先验,通过生成式建模提升深度预测的准确性和鲁棒性。
  3. 实验结果表明,该方法在室内外数据集上均取得了优异的性能,尤其在室内场景中达到了state-of-the-art水平。

📝 摘要(中文)

本文提出了一种基于视觉自回归(VAR)先验的单目深度估计方法,为基于扩散的方法提供了一种替代方案。该方法改编了一个大规模的文本到图像VAR模型,并引入了一个具有无分类器指导的尺度条件上采样机制。该方法在十个固定的自回归阶段进行推理,仅需74K个合成样本进行微调,并取得了具有竞争力的结果。在受限训练条件下,该方法在室内基准测试中报告了最先进的性能,并在应用于室外数据集时表现出强大的性能。这项工作确立了自回归先验作为深度估计的互补几何感知生成模型家族,突出了数据可扩展性和对3D视觉任务的适应性方面的优势。代码可在“https://github.com/AmirMaEl/VAR-Depth”上获取。

🔬 方法详解

问题定义:单目深度估计旨在从单个RGB图像中预测场景的深度信息。现有方法,如基于卷积神经网络的方法,通常需要大量的真实深度数据进行训练,且在数据分布差异较大的场景中泛化能力较弱。此外,基于扩散模型的方法计算成本较高。因此,如何在数据受限的情况下,提升单目深度估计的准确性和泛化能力是一个关键问题。

核心思路:本文的核心思路是利用视觉自回归(VAR)模型学习深度图的先验分布,从而在推理过程中利用这种先验知识来约束深度预测。通过将深度估计问题转化为一个生成式建模问题,可以有效地利用无监督或弱监督数据,并提升模型的鲁棒性。

技术框架:该方法基于一个大规模的文本到图像VAR模型,并针对深度估计任务进行了改进。整体流程包括以下几个阶段:1) 使用文本到图像VAR模型作为初始化;2) 引入尺度条件上采样机制,逐步生成高分辨率的深度图;3) 使用无分类器指导,控制生成过程,提升深度预测的质量。推理过程在十个固定的自回归阶段进行。

关键创新:该方法最重要的技术创新点在于将视觉自回归模型引入到单目深度估计中,并将其作为一种几何感知的生成模型。与传统的判别式方法不同,该方法通过学习深度图的先验分布,可以更好地处理数据不确定性和噪声,并提升模型的泛化能力。此外,该方法还引入了尺度条件上采样机制和无分类器指导,进一步提升了深度预测的精度和质量。

关键设计:该方法使用了一个大规模的文本到图像VAR模型作为基础架构,并对其进行了微调。尺度条件上采样机制通过逐步增加深度图的分辨率,从而生成更精细的深度信息。无分类器指导通过在训练过程中随机丢弃类别信息,从而提升模型的鲁棒性和泛化能力。该方法仅使用74K个合成样本进行微调,降低了对真实数据的依赖。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该方法在室内基准测试中取得了state-of-the-art的性能,尤其是在受限训练条件下。此外,该方法在应用于室外数据集时也表现出强大的性能,证明了其良好的泛化能力。值得注意的是,该方法仅使用74K个合成样本进行微调,即可达到如此优异的性能,表明其具有良好的数据可扩展性。

🎯 应用场景

该研究成果可应用于机器人导航、自动驾驶、虚拟现实、增强现实等领域。精确的深度估计对于机器人理解周围环境、进行路径规划和避障至关重要。在自动驾驶领域,深度信息可以用于感知车辆周围的障碍物和行人,提高驾驶安全性。在VR/AR领域,深度估计可以用于创建更逼真的虚拟场景和增强现实体验。

📄 摘要(原文)

We propose a monocular depth estimation method based on visual autoregressive (VAR) priors, offering an alternative to diffusion-based approaches. Our method adapts a large-scale text-to-image VAR model and introduces a scale-wise conditional upsampling mechanism with classifier-free guidance. Our approach performs inference in ten fixed autoregressive stages, requiring only 74K synthetic samples for fine-tuning, and achieves competitive results. We report state-of-the-art performance in indoor benchmarks under constrained training conditions, and strong performance when applied to outdoor datasets. This work establishes autoregressive priors as a complementary family of geometry-aware generative models for depth estimation, highlighting advantages in data scalability, and adaptability to 3D vision tasks. Code available at "https://github.com/AmirMaEl/VAR-Depth".