Depth Any Camera: Zero-Shot Metric Depth Estimation from Any Camera

作者: Yuliang Guo, Sparsh Garg, S. Mahdi H. Miangoleh, Xinyu Huang, Liu Ren

分类: cs.CV, cs.AI, cs.RO

发布日期: 2025-01-05 (更新: 2025-03-16)

💡 一句话要点

提出Depth Any Camera (DAC)，实现任意相机零样本度量深度估计

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 零样本学习 深度估计 鱼眼相机 360度相机 等距柱状投影 相机泛化 度量深度 计算机视觉

📋 核心要点

现有深度基础模型在零样本泛化方面表现出色，但在各种相机类型（尤其是大视场角的鱼眼和360度相机）上实现准确的度量深度仍然是一个挑战。
DAC框架的核心思想是利用等距柱状投影(ERP)作为统一图像表示，并通过pitch-aware转换、视场角对齐和多分辨率增强等技术，实现透视相机训练模型到其他相机类型的泛化。
DAC在鱼眼和360度数据集上实现了显著的性能提升，与现有度量深度基础模型相比，$δ_1$精度提高了高达50%，验证了其在不同相机类型上的鲁棒性。

📝 摘要（中文）

本文提出Depth Any Camera (DAC)，一个强大的零样本度量深度估计框架，旨在将透视相机训练的模型扩展到各种视场角的相机，特别是鱼眼和360度相机。DAC确保所有现有的3D数据都能被利用，而无需考虑新应用中使用的特定相机类型。值得注意的是，DAC仅在透视图像上训练，但可以无缝泛化到鱼眼和360度相机，无需专门的训练数据。DAC采用等距柱状投影(ERP)作为统一的图像表示，从而能够一致地处理具有不同视场角的图像。其核心组件包括：带有高效在线增强的pitch-aware图像到ERP转换，用于模拟来自未失真输入的失真ERP补丁；视场角对齐操作，以实现跨大范围视场角的有效训练；以及多分辨率数据增强，以进一步解决训练和测试之间的分辨率差异。DAC实现了最先进的零样本度量深度估计，与之前的度量深度基础模型相比，在多个鱼眼和360度数据集上，$δ_1$精度提高了高达50%，展示了跨相机类型的鲁棒泛化能力。

🔬 方法详解

问题定义：现有深度估计模型在透视相机上表现良好，但难以直接应用于具有较大视场角的鱼眼和360度相机。主要痛点在于透视相机训练的模型无法很好地泛化到具有显著畸变的非透视相机图像，需要大量的特定相机类型数据进行训练。

核心思路：DAC的核心思路是将各种相机类型的图像统一转换到等距柱状投影(ERP)空间，从而将不同视场角的图像表示到一个统一的框架下。通过在ERP空间进行训练和推理，可以有效地利用现有的透视相机数据，并实现向其他相机类型的零样本泛化。

技术框架：DAC框架主要包含以下几个阶段：1) 图像到ERP的转换：使用pitch-aware的转换方法将输入图像转换为ERP表示。2) 在线数据增强：通过模拟失真的ERP补丁来增强训练数据，提高模型的鲁棒性。3) 视场角对齐：通过特定的操作来对齐不同视场角的图像特征，使得模型能够更好地处理各种相机类型。4) 多分辨率数据增强：解决训练和测试图像之间的分辨率差异。5) 深度估计：使用在透视相机数据上训练的深度估计模型在ERP图像上进行深度预测。

关键创新：DAC最重要的创新在于其能够实现从透视相机到非透视相机的零样本泛化。通过ERP统一表示和一系列针对性的数据增强和对齐策略，DAC成功地克服了不同相机类型之间的差异，避免了对特定相机类型数据的依赖。

关键设计：DAC的关键设计包括：1) pitch-aware的图像到ERP转换，考虑了图像的pitch角度，从而更准确地进行投影。2) 高效的在线数据增强，能够快速生成大量的失真ERP补丁，提高训练效率。3) 视场角对齐操作，具体实现细节未知。4) 多分辨率数据增强，通过调整输入图像的分辨率来提高模型的泛化能力。

🖼️ 关键图片

📊 实验亮点

DAC在多个鱼眼和360度数据集上取得了显著的性能提升。与现有的度量深度基础模型相比，DAC在$δ_1$精度上提高了高达50%。这些实验结果表明，DAC能够有效地泛化到不同的相机类型，并且具有很强的鲁棒性。

🎯 应用场景

DAC框架具有广泛的应用前景，例如在自动驾驶、机器人导航、虚拟现实和增强现实等领域。它可以帮助这些系统更好地理解周围环境的深度信息，从而提高其感知能力和决策能力。DAC的零样本泛化能力使得它能够快速部署到新的应用场景中，而无需大量的特定相机类型数据。

📄 摘要（原文）

While recent depth foundation models exhibit strong zero-shot generalization, achieving accurate metric depth across diverse camera types-particularly those with large fields of view (FoV) such as fisheye and 360-degree cameras-remains a significant challenge. This paper presents Depth Any Camera (DAC), a powerful zero-shot metric depth estimation framework that extends a perspective-trained model to effectively handle cameras with varying FoVs. The framework is designed to ensure that all existing 3D data can be leveraged, regardless of the specific camera types used in new applications. Remarkably, DAC is trained exclusively on perspective images but generalizes seamlessly to fisheye and 360-degree cameras without the need for specialized training data. DAC employs Equi-Rectangular Projection (ERP) as a unified image representation, enabling consistent processing of images with diverse FoVs. Its core components include pitch-aware Image-to-ERP conversion with efficient online augmentation to simulate distorted ERP patches from undistorted inputs, FoV alignment operations to enable effective training across a wide range of FoVs, and multi-resolution data augmentation to further address resolution disparities between training and testing. DAC achieves state-of-the-art zero-shot metric depth estimation, improving $δ_1$ accuracy by up to 50% on multiple fisheye and 360-degree datasets compared to prior metric depth foundation models, demonstrating robust generalization across camera types.

Depth Any Camera: Zero-Shot Metric Depth Estimation from Any Camera

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理