Estimating Depth of Monocular Panoramic Image with Teacher-Student Model Fusing Equirectangular and Spherical Representations
作者: Jingguo Liu, Yijun Xu, Shigang Li, Jianfeng Li
分类: cs.CV
发布日期: 2024-05-27
💡 一句话要点
提出一种融合Equirectangular和Spherical表示的Teacher-Student模型,用于单目全景图像深度估计。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 单目深度估计 全景图像 球面卷积 Teacher-Student模型 特征融合 Equirectangular投影 Spherical表示
📋 核心要点
- 现有方法在处理360度全景图像时,面临Equirectangular表示的断裂和失真问题,影响深度估计精度。
- 论文提出融合Equirectangular和Spherical表示的Teacher-Student模型,利用球面表示的均匀采样特性,有效应对失真。
- 实验结果表明,该方法在多个360单目深度估计数据集上,在大多数评估指标上优于现有方法。
📝 摘要(中文)
本文提出了一种融合Equirectangular和Spherical表示的Teacher-Student模型,用于估计单目全景图像的深度。针对360度Equirectangular图像处理中存在的断裂和失真问题,该方法选择球面表示,因为它在球面上采样更均匀,能更有效地处理失真。为此,开发了一种新颖的球面卷积核,通过在球面上采样点进行计算,以提取球面表示的特征。然后,利用分割特征融合(SFF)方法将这些特征与从Equirectangular表示中提取的特征相结合。与现有使用Teacher-Student模型来获得更轻量级深度估计模型的方法不同,本文使用Teacher-Student模型来学习深度图像的潜在特征。这使得训练后的模型不仅可以使用从输入Equirectangular图像中提取的特征图,还可以使用从训练集的深度图的ground truth中学习到的提炼知识来估计Equirectangular图像的深度图。在多个知名的360单目深度估计基准数据集上进行了测试,结果表明该方法在大多数评估指标上优于现有方法。
🔬 方法详解
问题定义:论文旨在解决单目全景图像的深度估计问题。现有方法主要基于Equirectangular投影,但这种投影方式在全景图像边缘存在严重的失真和不连续性,导致深度估计精度下降。同时,直接训练深度估计模型计算量大,难以部署。
核心思路:论文的核心思路是融合Equirectangular和Spherical两种表示,利用Spherical表示的均匀采样特性来缓解Equirectangular投影的失真问题。同时,采用Teacher-Student模型,让Student模型学习Teacher模型从深度图ground truth中提取的知识,从而提升Student模型的深度估计能力。
技术框架:整体框架包含两个主要部分:特征提取和深度估计。首先,分别从Equirectangular图像和Spherical图像中提取特征。对于Spherical图像,使用提出的球面卷积核进行特征提取。然后,使用分割特征融合(SFF)模块将两种特征融合。最后,将融合后的特征输入到Student模型中,预测深度图。Teacher模型则使用深度图ground truth进行训练,并将学习到的知识传递给Student模型。
关键创新:论文的关键创新点在于:1) 提出了一种新颖的球面卷积核,用于从Spherical表示中提取特征;2) 提出了一种融合Equirectangular和Spherical特征的分割特征融合(SFF)模块;3) 使用Teacher-Student模型学习深度图的潜在特征,而不是仅仅用于模型压缩。
关键设计:球面卷积核的设计基于球面上均匀采样点,卷积操作在这些采样点上进行。SFF模块通过分割特征图,并对不同分割区域的特征进行加权融合。Teacher-Student模型使用深度图的ground truth作为Teacher模型的输入,Student模型的目标是模仿Teacher模型的输出,从而学习到深度图的潜在特征。损失函数包括深度预测损失和知识蒸馏损失。
🖼️ 关键图片
📊 实验亮点
该方法在多个360单目深度估计基准数据集上进行了测试,实验结果表明,该方法在大多数评估指标上优于现有方法。具体性能数据未知,但摘要明确指出“outperforms the existing methods for the most evaluation indexes”。
🎯 应用场景
该研究成果可应用于虚拟现实(VR)、增强现实(AR)、机器人导航、自动驾驶等领域。通过准确估计全景图像的深度信息,可以提升VR/AR的沉浸感和交互性,帮助机器人更好地理解周围环境,提高自动驾驶的安全性。
📄 摘要(原文)
Disconnectivity and distortion are the two problems which must be coped with when processing 360 degrees equirectangular images. In this paper, we propose a method of estimating the depth of monocular panoramic image with a teacher-student model fusing equirectangular and spherical representations. In contrast with the existing methods fusing an equirectangular representation with a cube map representation or tangent representation, a spherical representation is a better choice because a sampling on a sphere is more uniform and can also cope with distortion more effectively. In this processing, a novel spherical convolution kernel computing with sampling points on a sphere is developed to extract features from the spherical representation, and then, a Segmentation Feature Fusion(SFF) methodology is utilized to combine the features with ones extracted from the equirectangular representation. In contrast with the existing methods using a teacher-student model to obtain a lighter model of depth estimation, we use a teacher-student model to learn the latent features of depth images. This results in a trained model which estimates the depth map of an equirectangular image using not only the feature maps extracted from an input equirectangular image but also the distilled knowledge learnt from the ground truth of depth map of a training set. In experiments, the proposed method is tested on several well-known 360 monocular depth estimation benchmark datasets, and outperforms the existing methods for the most evaluation indexes.