Depth Anywhere: Enhancing 360 Monocular Depth Estimation via Perspective Distillation and Unlabeled Data Augmentation

📄 arXiv: 2406.12849v2 📥 PDF

作者: Ning-Hsu Wang, Yu-Lun Liu

分类: cs.CV

发布日期: 2024-06-18 (更新: 2024-10-30)

备注: NeurIPS 2024. Project page: https://albert100121.github.io/Depth-Anywhere/

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出基于透视蒸馏和无标签数据增强的360度单目深度估计方法

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 360度图像 深度估计 单目深度估计 知识蒸馏 半监督学习

📋 核心要点

  1. 现有透视图像深度估计方法无法直接应用于360度图像,而360度图像深度估计方法又面临缺乏标注数据的挑战。
  2. 该论文提出利用透视深度估计模型作为教师模型,通过六面立方体投影生成伪标签,从而有效利用无标签360度数据。
  3. 实验结果表明,该方法在Matterport3D和Stanford2D3D等数据集上显著提高了深度估计精度,尤其是在零样本场景下。

📝 摘要(中文)

精确估计360度图像的深度对于虚拟现实、自动导航和沉浸式媒体应用至关重要。现有的为透视图像设计的深度估计方法在应用于360度图像时会失效,这是由于不同的相机投影和失真造成的。而360度方法由于缺乏带标签的数据对而表现不佳。我们提出了一个新的深度估计框架,该框架有效地利用了无标签的360度数据。我们的方法使用最先进的透视深度估计模型作为教师模型,通过六面立方体投影技术生成伪标签,从而能够有效地标记360度图像中的深度。这种方法利用了日益增长的大型数据集。我们的方法包括两个主要阶段:无效区域的离线掩码生成和在线半监督联合训练机制。我们在Matterport3D和Stanford2D3D等基准数据集上测试了我们的方法,结果表明深度估计精度显著提高,尤其是在零样本场景中。我们提出的训练流程可以增强任何360度单目深度估计器,并展示了跨不同相机投影和数据类型的有效知识转移。

🔬 方法详解

问题定义:现有的深度估计方法在处理360度图像时面临挑战。透视投影的深度估计模型无法直接应用于360度图像,因为360度图像具有不同的相机投影方式和图像失真。而专门为360度图像设计的深度估计模型,由于缺乏足够的标注数据,性能往往受到限制。因此,如何在缺乏大量标注数据的情况下,提升360度图像的深度估计精度是一个关键问题。

核心思路:该论文的核心思路是利用现有的、性能优越的透视投影深度估计模型作为教师模型,通过知识蒸馏的方式,将透视投影的深度信息迁移到360度图像上。具体来说,通过将360度图像投影到六面立方体上,然后利用透视投影的深度估计模型为每个面生成伪标签,从而为360度图像提供深度信息。同时,利用半监督学习的方式,结合有标签和无标签数据进行训练,进一步提升模型的泛化能力。

技术框架:该方法包含两个主要阶段:离线掩码生成和在线半监督联合训练。首先,在离线阶段,生成无效区域的掩码,例如天空区域等,以避免这些区域对深度估计产生干扰。然后,在在线阶段,使用透视投影的深度估计模型为360度图像生成伪标签,并结合真实标签和伪标签,使用半监督学习的方式训练360度深度估计模型。

关键创新:该论文的关键创新在于利用透视投影的深度估计模型为360度图像生成伪标签,从而有效地利用了无标签的360度数据。这种方法避免了直接在360度图像上进行标注的困难,并能够利用现有的、性能优越的透视投影深度估计模型。此外,该方法还采用了半监督学习的方式,进一步提升了模型的泛化能力。

关键设计:该方法使用了六面立方体投影技术,将360度图像投影到六个透视投影的图像上。然后,使用现有的透视投影深度估计模型为每个面生成伪标签。在损失函数方面,使用了真实标签和伪标签的加权损失函数,以平衡有标签数据和无标签数据的影响。具体的网络结构选择取决于所使用的360度深度估计模型,该方法可以与任何现有的360度深度估计模型相结合。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该方法在Matterport3D和Stanford2D3D等基准数据集上进行了评估,实验结果表明,该方法显著提高了360度图像的深度估计精度,尤其是在零样本场景下。具体性能提升数据未知,但摘要中明确指出是“significant improvements”。该方法证明了透视投影深度估计模型可以有效地迁移到360度图像上,并为360度深度估计提供了一种新的思路。

🎯 应用场景

该研究成果可广泛应用于虚拟现实(VR)、增强现实(AR)、机器人导航、自动驾驶、三维重建、场景理解等领域。精确的360度深度估计能够提升VR/AR的沉浸感和交互性,帮助机器人更好地理解周围环境,为自动驾驶提供更可靠的感知信息,并促进三维重建和场景理解技术的发展。未来,该技术有望在智能家居、智慧城市等领域发挥重要作用。

📄 摘要(原文)

Accurately estimating depth in 360-degree imagery is crucial for virtual reality, autonomous navigation, and immersive media applications. Existing depth estimation methods designed for perspective-view imagery fail when applied to 360-degree images due to different camera projections and distortions, whereas 360-degree methods perform inferior due to the lack of labeled data pairs. We propose a new depth estimation framework that utilizes unlabeled 360-degree data effectively. Our approach uses state-of-the-art perspective depth estimation models as teacher models to generate pseudo labels through a six-face cube projection technique, enabling efficient labeling of depth in 360-degree images. This method leverages the increasing availability of large datasets. Our approach includes two main stages: offline mask generation for invalid regions and an online semi-supervised joint training regime. We tested our approach on benchmark datasets such as Matterport3D and Stanford2D3D, showing significant improvements in depth estimation accuracy, particularly in zero-shot scenarios. Our proposed training pipeline can enhance any 360 monocular depth estimator and demonstrates effective knowledge transfer across different camera projections and data types. See our project page for results: https://albert100121.github.io/Depth-Anywhere/