Adaptive Depth-converted-Scale Convolution for Self-supervised Monocular Depth Estimation
作者: Yanbo Gao, Huibin Bai, Huasong Zhou, Xingyu Gao, Shuai Li, Xun Cai, Hui Yuan, Wei Hua, Tian Xie
分类: cs.CV
发布日期: 2026-04-09
备注: Accepted by IEEE Transactions on Circuits and Systems for Video Technology
💡 一句话要点
提出DcSConv自监督单目深度估计框架,解决深度变化导致的物体尺度模糊问题。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 自监督深度估计 单目视觉 深度学习 尺度自适应卷积 深度转换尺度卷积
📋 核心要点
- 现有自监督单目深度估计方法忽略了物体因深度变化而引起的尺度变化,导致深度估计模糊。
- 提出深度转换尺度卷积(DcSConv),利用物体深度和尺度之间的关系,自适应地调整卷积感受野。
- 在KITTI数据集上,DcSConv框架在多个基线上取得了显著提升,SqRel指标最高降低了11.6%。
📝 摘要(中文)
近年来,自监督单目深度估计(MDE)越来越受到关注。场景中的物体,包括物体大小和不同物体之间的关系,是提取场景结构的主要线索。然而,先前的工作缺乏对物体因深度变化而引起的尺寸变化的显式处理。特别是在单目视频中,同一物体的大小不断变化,导致大小和深度模糊。为了解决这个问题,我们提出了一种深度转换尺度卷积(DcSConv)增强的单目深度估计框架,通过结合物体深度和物体尺度之间的先验关系,从卷积感受野的适当尺度提取特征。所提出的DcSConv侧重于卷积滤波器的自适应尺度,而不是其形状的局部变形。它表明卷积滤波器的尺度与局部变形同样重要(或在评估的任务中更重要)。此外,还开发了一种深度转换尺度感知融合(DcS-F),以自适应地融合DcSConv特征和传统卷积特征。我们基于DcSConv增强的单目深度估计框架可以作为即插即用模块应用于现有的基于CNN的方法之上,以增强传统的卷积块。在KITTI基准上进行了不同基线的广泛实验,我们的方法取得了最佳结果,在SqRel减少方面提高了高达11.6%。消融研究也验证了每个提出的模块的有效性。
🔬 方法详解
问题定义:自监督单目深度估计旨在仅使用单目图像序列来预测场景的深度信息。现有的方法通常使用标准的卷积操作,但忽略了场景中物体由于深度变化而引起的尺度变化。这种尺度变化会导致深度估计的模糊性,尤其是在单目视频中,同一物体在不同深度上的尺度差异显著。
核心思路:论文的核心思路是利用物体深度和尺度之间的先验关系,设计一种自适应的卷积操作,使其能够根据物体的深度调整卷积感受野的尺度。通过这种方式,网络可以更好地提取不同深度物体的特征,从而提高深度估计的准确性。DcSConv的设计理念是关注卷积核的尺度自适应,而非局部形变,作者认为尺度比形变更重要。
技术框架:整体框架是在现有的CNN基础上,将传统的卷积层替换为DcSConv模块。DcSConv模块首先根据输入的深度信息,计算出相应的尺度因子,然后利用该尺度因子调整卷积核的感受野。此外,还提出了一个深度转换尺度感知融合(DcS-F)模块,用于自适应地融合DcSConv提取的特征和传统卷积提取的特征。整个框架可以作为即插即用模块,方便地集成到现有的深度估计网络中。
关键创新:最重要的技术创新点是DcSConv模块,它能够根据物体的深度自适应地调整卷积核的感受野。与传统的卷积操作相比,DcSConv能够更好地处理由于深度变化引起的尺度变化,从而提高深度估计的准确性。DcSConv与可变形卷积不同,它关注卷积核的整体尺度变化,而不是局部形变。
关键设计:DcSConv模块的关键设计在于如何根据深度信息计算尺度因子。论文中具体计算方法未知。DcS-F模块的设计细节也未知。损失函数方面,论文沿用了自监督深度估计常用的光度一致性损失,并可能结合了其他正则化项。网络结构方面,DcSConv可以替换任何卷积层,因此对原网络结构没有特殊要求。
🖼️ 关键图片
📊 实验亮点
实验结果表明,DcSConv框架在KITTI数据集上取得了显著的性能提升。具体来说,在SqRel指标上,DcSConv框架相比于基线方法,最高降低了11.6%。此外,消融实验验证了DcSConv模块和DcS-F模块的有效性。这些结果表明,DcSConv能够有效地处理由于深度变化引起的尺度变化,从而提高深度估计的准确性。
🎯 应用场景
该研究成果可应用于自动驾驶、机器人导航、虚拟现实等领域。在自动驾驶中,准确的深度估计对于环境感知至关重要,可以帮助车辆更好地理解周围环境,从而做出更安全的决策。在机器人导航中,深度信息可以帮助机器人构建地图,规划路径,并避免障碍物。在虚拟现实中,深度估计可以用于生成更逼真的3D场景,提高用户的沉浸感。
📄 摘要(原文)
Self-supervised monocular depth estimation (MDE) has received increasing interests in the last few years. The objects in the scene, including the object size and relationship among different objects, are the main clues to extract the scene structure. However, previous works lack the explicit handling of the changing sizes of the object due to the change of its depth. Especially in a monocular video, the size of the same object is continuously changed, resulting in size and depth ambiguity. To address this problem, we propose a Depth-converted-Scale Convolution (DcSConv) enhanced monocular depth estimation framework, by incorporating the prior relationship between the object depth and object scale to extract features from appropriate scales of the convolution receptive field. The proposed DcSConv focuses on the adaptive scale of the convolution filter instead of the local deformation of its shape. It establishes that the scale of the convolution filter matters no less (or even more in the evaluated task) than its local deformation. Moreover, a Depth-converted-Scale aware Fusion (DcS-F) is developed to adaptively fuse the DcSConv features and the conventional convolution features. Our DcSConv enhanced monocular depth estimation framework can be applied on top of existing CNN based methods as a plug-and-play module to enhance the conventional convolution block. Extensive experiments with different baselines have been conducted on the KITTI benchmark and our method achieves the best results with an improvement up to 11.6% in terms of SqRel reduction. Ablation study also validates the effectiveness of each proposed module.