DA$^{2}$: Depth Anything in Any Direction

📄 arXiv: 2509.26618v5 📥 PDF

作者: Haodong Li, Wangguangdong Zheng, Jing He, Yuhao Liu, Xin Lin, Xin Yang, Ying-Cong Chen, Chunchao Guo

分类: cs.CV

发布日期: 2025-09-30 (更新: 2025-11-08)

备注: Work primarily done during an internship at Tencent Hunyuan. Project page: https://depth-any-in-any-dir.github.io/

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出DA²,实现任意方向全景深度估计的零样本泛化

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱七:动作重定向 (Motion Retargeting)

关键词: 全景深度估计 零样本学习 数据增强 球形几何 Transformer

📋 核心要点

  1. 现有全景深度估计方法受限于数据稀缺,零样本泛化能力差,难以应用于实际场景。
  2. DA²通过数据增强和SphereViT网络,显式利用球坐标信息,提升全景图像特征的几何一致性。
  3. 实验表明,DA²在多个数据集上取得了SOTA性能,零样本泛化能力大幅提升,且效率更高。

📝 摘要(中文)

本文提出DA²:Depth Anything in Any Direction,一个精确、零样本泛化且完全端到端的全景深度估计器。为了扩展全景数据,我们引入了一个数据管理引擎,用于从透视图像生成高质量的全景深度数据,创建了约54.3万个全景RGB-depth对,总数达到约60.7万个。为了进一步缓解球形失真,我们提出了SphereViT,它显式地利用球坐标来增强全景图像特征中的球形几何一致性,从而提高性能。在多个数据集上的综合基准测试清楚地表明了DA²的SoTA性能,在AbsRel指标上比最强的零样本基线平均提高了38%。令人惊讶的是,DA²甚至优于先前的领域内方法,突出了其卓越的零样本泛化能力。此外,作为一个端到端解决方案,DA²比基于融合的方法表现出更高的效率。代码和整理的全景数据均已发布。

🔬 方法详解

问题定义:全景深度估计旨在从360°全景图像中预测每个像素的深度信息。现有方法受限于全景数据的稀缺性,导致模型在训练数据分布之外的场景中泛化能力较差。此外,全景图像固有的球形失真给深度估计带来了挑战,传统方法通常采用透视分割(如立方体贴图),导致效率低下。

核心思路:DA²的核心思路是通过大规模数据增强和显式地建模全景图像的球形几何结构来提升模型的零样本泛化能力和效率。通过生成高质量的全景深度数据来缓解数据稀缺问题,并设计SphereViT网络来处理球形失真。

技术框架:DA²包含两个主要组成部分:数据管理引擎和SphereViT网络。数据管理引擎负责从透视图像生成大规模的全景RGB-depth数据。SphereViT是一个基于Transformer的全景深度估计网络,它显式地利用球坐标信息来增强特征的几何一致性。整个流程是端到端的,直接从全景图像预测深度图。

关键创新:DA²的关键创新在于:1) 提出了一个数据管理引擎,用于生成大规模高质量的全景深度数据,显著缓解了数据稀缺问题。2) 设计了SphereViT网络,通过显式地建模球形几何结构,有效地处理了全景图像的球形失真,提高了深度估计的准确性。与现有方法相比,DA²无需透视分割,实现了端到端的全景深度估计。

关键设计:SphereViT网络的关键设计包括:1) 使用球坐标对图像特征进行编码,从而显式地利用球形几何信息。2) 设计了专门的注意力机制,考虑了球形空间中的像素关系。3) 损失函数方面,可能采用了深度回归常用的L1损失或Smooth L1损失,并可能引入了深度梯度一致性损失来进一步提升深度图的质量。

🖼️ 关键图片

img_0

📊 实验亮点

DA²在多个全景深度估计数据集上取得了显著的性能提升。例如,在AbsRel指标上,DA²比最强的零样本基线平均提高了38%。更重要的是,DA²甚至超越了先前的领域内方法,证明了其卓越的零样本泛化能力。此外,DA²作为一个端到端解决方案,比基于融合的方法具有更高的效率。

🎯 应用场景

DA²在机器人导航、自动驾驶、虚拟现实/增强现实、三维重建等领域具有广泛的应用前景。它可以为机器人提供更全面的环境感知能力,帮助自动驾驶车辆理解周围环境,为VR/AR应用提供更逼真的三维场景,并用于构建大规模的三维地图。

📄 摘要(原文)

Panorama has a full FoV (360$^\circ\times$180$^\circ$), offering a more complete visual description than perspective images. Thanks to this characteristic, panoramic depth estimation is gaining increasing traction in 3D vision. However, due to the scarcity of panoramic data, previous methods are often restricted to in-domain settings, leading to poor zero-shot generalization. Furthermore, due to the spherical distortions inherent in panoramas, many approaches rely on perspective splitting (e.g., cubemaps), which leads to suboptimal efficiency. To address these challenges, we propose $\textbf{DA}$$^{\textbf{2}}$: $\textbf{D}$epth $\textbf{A}$nything in $\textbf{A}$ny $\textbf{D}$irection, an accurate, zero-shot generalizable, and fully end-to-end panoramic depth estimator. Specifically, for scaling up panoramic data, we introduce a data curation engine for generating high-quality panoramic depth data from perspective, and create $\sim$543K panoramic RGB-depth pairs, bringing the total to $\sim$607K. To further mitigate the spherical distortions, we present SphereViT, which explicitly leverages spherical coordinates to enforce the spherical geometric consistency in panoramic image features, yielding improved performance. A comprehensive benchmark on multiple datasets clearly demonstrates DA$^{2}$'s SoTA performance, with an average 38% improvement on AbsRel over the strongest zero-shot baseline. Surprisingly, DA$^{2}$ even outperforms prior in-domain methods, highlighting its superior zero-shot generalization. Moreover, as an end-to-end solution, DA$^{2}$ exhibits much higher efficiency over fusion-based approaches. Both the code and the curated panoramic data has be released. Project page: https://depth-any-in-any-dir.github.io/.