CRF360D: Monocular 360 Depth Estimation via Spherical Fully-Connected CRFs

📄 arXiv: 2405.11564v1 📥 PDF

作者: Zidong Cao, Lin Wang

分类: cs.CV

发布日期: 2024-05-19


💡 一句话要点

提出基于球面全连接CRF的CRF360D,用于单目360度深度估计。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 360度深度估计 单目视觉 球面全连接CRF 等距柱状投影 球面窗口变换 平面-球面交互 深度学习 全景图像

📋 核心要点

  1. 等距柱状投影导致球面相邻点在ERP图像中分离,尤其在极地区域,这是360度深度估计的挑战。
  2. 提出球面全连接CRF(SF-CRF),通过球面窗口变换(SWT)和平面-球面交互(PSI)模块,增强球面关系。
  3. CRF360D框架在多个数据集上实现了最先进的性能,并且可以与不同的骨干网络结合使用。

📝 摘要(中文)

单目360度深度估计由于等距柱状投影(ERP)的固有失真而具有挑战性。这种失真导致一个问题:球面上相邻的点在投影到ERP平面后被分离,尤其是在极地区域。为了解决这个问题,最近的方法在切线域中计算球面邻域。然而,由于切线块和球面只有一个共同点,这些方法围绕共同点构建相邻的球面关系。在本文中,我们提出了球面全连接CRF(SF-CRF)。我们首先用规则窗口均匀地分割ERP图像,其中赤道的窗口比极点的窗口涉及更广泛的球面邻域。为了改善球面关系,我们的SF-CRF包含两个关键组件。首先,为了包含足够的球面邻域,我们提出了一个球面窗口变换(SWT)模块。该模块旨在利用球面的旋转不变性,将赤道窗口的球面关系复制到所有其他窗口。值得注意的是,转换过程非常高效,在CPU上以0.038秒完成所有512X1024 ERP窗口的转换。其次,我们提出了一个平面-球面交互(PSI)模块,以促进规则窗口和转换窗口之间的关系,这不仅保留了局部细节,而且捕获了全局结构。通过构建基于SF-CRF块的解码器,我们提出了CRF360D,这是一种新颖的360深度估计框架,可在各种数据集上实现最先进的性能。我们的CRF360D与不同的透视图像训练的骨干网络(例如,EfficientNet)兼容,作为编码器。

🔬 方法详解

问题定义:单目360度深度估计旨在从单个360度全景图像中预测场景的深度信息。现有方法在处理等距柱状投影(ERP)图像时,由于其固有的失真,尤其是在极地区域,导致球面相邻点在投影后分离,难以建立准确的球面邻域关系。以往方法通常在切平面上近似球面关系,但这种近似只在一个点上有效,无法充分捕捉全局球面结构。

核心思路:论文的核心思路是利用球面的旋转不变性,将赤道区域的球面邻域关系推广到整个ERP图像。通过球面窗口变换(SWT)模块,将赤道窗口的球面关系复制到所有其他窗口,从而在所有区域都建立起充分的球面邻域。同时,通过平面-球面交互(PSI)模块,融合原始ERP图像的局部细节和变换后的全局球面结构,从而实现更准确的深度估计。

技术框架:CRF360D框架主要由编码器和解码器组成。编码器可以使用不同的透视图像训练的骨干网络(如EfficientNet)提取图像特征。解码器基于SF-CRF块构建,SF-CRF块是该框架的核心。SF-CRF块包含SWT模块和PSI模块。SWT模块负责将赤道窗口的球面关系复制到所有其他窗口,PSI模块负责融合原始ERP图像的局部细节和变换后的全局球面结构。解码器通过堆叠多个SF-CRF块,逐步细化深度预测结果。

关键创新:该论文的关键创新在于提出了球面全连接CRF(SF-CRF),并设计了球面窗口变换(SWT)和平面-球面交互(PSI)模块。SWT模块能够高效地将赤道窗口的球面关系复制到所有其他窗口,从而在整个ERP图像上建立起充分的球面邻域。PSI模块能够有效地融合原始ERP图像的局部细节和变换后的全局球面结构,从而提高深度估计的准确性。与以往方法相比,该方法能够更准确地捕捉全局球面结构,从而实现更准确的深度估计。

关键设计:球面窗口变换(SWT)模块通过旋转操作将赤道窗口的特征复制到其他窗口。平面-球面交互(PSI)模块使用卷积操作融合原始ERP图像的特征和变换后的特征。损失函数方面,论文可能采用了深度回归常用的L1损失或L2损失,具体细节未知。网络结构方面,解码器可能采用了U-Net类似的结构,通过跳跃连接将编码器的特征传递到解码器,以保留更多的细节信息,具体细节未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

CRF360D在多个360度深度估计数据集上取得了state-of-the-art的性能。具体性能数据和对比基线未知,但摘要中明确指出其在各种数据集上实现了最先进的性能,表明了该方法的有效性和泛化能力。

🎯 应用场景

该研究成果可应用于虚拟现实(VR)、增强现实(AR)、机器人导航、自动驾驶等领域。在VR/AR中,准确的360度深度估计可以提供更逼真的沉浸式体验。在机器人导航和自动驾驶中,可以帮助机器人或车辆更好地理解周围环境,从而实现更安全、更可靠的导航。

📄 摘要(原文)

Monocular 360 depth estimation is challenging due to the inherent distortion of the equirectangular projection (ERP). This distortion causes a problem: spherical adjacent points are separated after being projected to the ERP plane, particularly in the polar regions. To tackle this problem, recent methods calculate the spherical neighbors in the tangent domain. However, as the tangent patch and sphere only have one common point, these methods construct neighboring spherical relationships around the common point. In this paper, we propose spherical fully-connected CRFs (SF-CRFs). We begin by evenly partitioning an ERP image with regular windows, where windows at the equator involve broader spherical neighbors than those at the poles. To improve the spherical relationships, our SF-CRFs enjoy two key components. Firstly, to involve sufficient spherical neighbors, we propose a Spherical Window Transform (SWT) module. This module aims to replicate the equator window's spherical relationships to all other windows, leveraging the rotational invariance of the sphere. Remarkably, the transformation process is highly efficient, completing the transformation of all windows in a 512X1024 ERP with 0.038 seconds on CPU. Secondly, we propose a Planar-Spherical Interaction (PSI) module to facilitate the relationships between regular and transformed windows, which not only preserves the local details but also captures global structures. By building a decoder based on the SF-CRFs blocks, we propose CRF360D, a novel 360 depth estimation framework that achieves state-of-the-art performance across diverse datasets. Our CRF360D is compatible with different perspective image-trained backbones (e.g., EfficientNet), serving as the encoder.