Monocular Depth Estimation From the Perspective of Feature Restoration: A Diffusion Enhanced Depth Restoration Approach

📄 arXiv: 2604.07664v1 📥 PDF

作者: Huibin Bai, Shuai Li, Hanxiao Zhai, Yanbo Gao, Chong Lv, Yibo Wang, Haipeng Ping, Wei Hua, Xingyu Gao

分类: cs.CV, eess.IV

发布日期: 2026-04-09

备注: Accepted by IEEE TMM

🔗 代码/项目: GITHUB


💡 一句话要点

提出基于扩散增强深度恢复的单目深度估计方法,提升特征表达能力。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 单目深度估计 特征恢复 扩散模型 可逆变换 辅助视点

📋 核心要点

  1. 现有单目深度估计方法在编码器特征利用上存在不足,限制了深度预测的精度。
  2. 将深度估计问题转化为特征恢复问题,通过扩散模型恢复高质量的特征表示。
  3. 提出的InvT-IndDiffusion模块和AV-LFE模块显著提升了深度估计的准确性和细节表现。

📝 摘要(中文)

单目深度估计(MDE)是计算机视觉中的一项基础任务,在3D视觉中具有重要应用。目前主流的MDE方法采用具有多层/尺度特征处理的编码器-解码器架构。然而,当前架构的局限性以及不同层级特征对预测精度的影响尚未得到充分评估。本文首先研究了上述问题,并表明如果能够改进编码器特征,则当前框架仍具有巨大的潜力。因此,我们提出从特征恢复的角度来构建深度估计问题,将预训练的编码器特征视为假定的真实特征的退化版本,该真实特征产生真实的深度图。然后,开发了一种基于可逆变换增强的间接扩散(InvT-IndDiffusion)模块用于特征恢复。由于缺乏对特征的直接监督,因此仅使用来自最终稀疏深度图的间接监督。在扩散的迭代过程中,这会导致步骤之间的特征偏差。所提出的InvT-IndDiffusion通过在双Lipschitz条件下使用基于可逆变换的解码器来解决此问题。最后,当辅助视点可用时,开发了一种即插即用的基于辅助视点的低级特征增强模块(AV-LFE)来增强局部细节。实验表明,所提出的方法在各种数据集上实现了比最先进方法更好的性能。特别是在KITTI基准测试中,与基线相比,在RMSE方面,不同训练设置下的性能提高了4.09%和37.77%。代码可在https://github.com/whitehb1/IID-RDepth 获得。

🔬 方法详解

问题定义:现有单目深度估计方法主要采用编码器-解码器结构,但对编码器提取的特征利用不足,导致深度预测精度受限。尤其是在特征恢复和细节增强方面,现有方法存在改进空间。

核心思路:论文将深度估计问题重新定义为特征恢复问题。核心思想是假设编码器提取的特征是“退化”的,通过扩散模型学习如何从这些退化特征中恢复出更接近真实场景的特征表示,从而提升深度估计的准确性。这种思路避免了直接对深度图进行预测,而是关注于提升特征的表达能力。

技术框架:整体框架包括三个主要模块:预训练的编码器、InvT-IndDiffusion模块和AV-LFE模块。首先,使用预训练的编码器提取图像特征。然后,InvT-IndDiffusion模块通过可逆变换和间接扩散过程恢复高质量的特征。最后,AV-LFE模块利用辅助视点信息增强低级特征,提升局部细节的表达。整个流程以端到端的方式进行训练。

关键创新:论文的关键创新在于提出了InvT-IndDiffusion模块,该模块利用可逆变换来约束扩散过程,避免了特征在迭代过程中的偏差。与传统的扩散模型不同,该模块采用间接监督方式,仅使用稀疏深度图作为监督信号,更具挑战性。此外,AV-LFE模块通过引入辅助视点信息,有效提升了局部细节的表达能力。

关键设计:InvT-IndDiffusion模块采用可逆神经网络作为解码器,保证了特征在扩散过程中的可逆性。损失函数主要包括深度预测损失和可逆变换的约束损失。AV-LFE模块利用注意力机制融合来自辅助视点的低级特征。具体的参数设置和网络结构细节在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在KITTI数据集上取得了显著的性能提升。与基线方法相比,在不同训练设置下,RMSE指标分别提升了4.09%和37.77%。此外,该方法在其他数据集上也表现出良好的泛化能力,证明了其有效性和鲁棒性。

🎯 应用场景

该研究成果可应用于自动驾驶、机器人导航、三维重建、虚拟现实等领域。高质量的单目深度估计能够为这些应用提供准确的环境感知信息,提升系统的安全性和可靠性。未来,该方法有望扩展到其他视觉任务,例如语义分割和目标检测。

📄 摘要(原文)

Monocular Depth Estimation (MDE) is a fundamental computer vision task with important applications in 3D vision. The current mainstream MDE methods employ an encoder-decoder architecture with multi-level/scale feature processing. However, the limitations of the current architecture and the effects of different-level features on the prediction accuracy are not evaluated. In this paper, we first investigate the above problem and show that there is still substantial potential in the current framework if encoder features can be improved. Therefore, we propose to formulate the depth estimation problem from the feature restoration perspective, by treating pretrained encoder features as degraded features of an assumed ground truth feature that yields the ground truth depth map. Then an Invertible Transform-enhanced Indirect Diffusion (InvT-IndDiffusion) module is developed for feature restoration. Due to the absence of direct supervision on feature, only indirect supervision from the final sparse depth map is used. During the iterative procedure of diffusion, this results in feature deviations among steps. The proposed InvT-IndDiffusion solves this problem by using an invertible transform-based decoder under the bi-Lipschitz condition. Finally, a plug-and-play Auxiliary Viewpoint-based Low-level Feature Enhancement module (AV-LFE) is developed to enhance local details with auxiliary viewpoint when available. Experiments demonstrate that the proposed method achieves better performance than the state-of-the-art methods on various datasets. Specifically on the KITTI benchmark, compared with the baseline, the performance is improved by 4.09% and 37.77% under different training settings in terms of RMSE. Code is available at https://github.com/whitehb1/IID-RDepth.