$D^3$-RSMDE: 40$\times$ Faster and High-Fidelity Remote Sensing Monocular Depth Estimation

📄 arXiv: 2603.16362v1 📥 PDF

作者: Ruizhi Wang, Weihan Li, Zunlei Feng, Haofei Zhang, Mingli Song, Jiayu Wang, Jie Song, Li Sun

分类: cs.CV, cs.AI

发布日期: 2026-03-17


💡 一句话要点

提出D³-RSMDE框架,加速40倍并提升遥感单目深度估计质量

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 遥感图像 单目深度估计 扩散模型 Vision Transformer 深度图细化

📋 核心要点

  1. 遥感图像单目深度估计需要在精度和效率之间权衡,现有方法难以兼顾。
  2. D³-RSMDE利用ViT快速生成深度图先验,并用轻量级U-Net在VAE潜在空间中进行细节细化。
  3. 实验表明,D³-RSMDE在显著提升推理速度的同时,降低了LPIPS指标,提高了感知质量。

📝 摘要(中文)

本文提出用于遥感单目深度估计的深度细节扩散模型($D^3$-RSMDE),旨在实现速度和质量之间的最佳平衡。现有方法在精度和效率之间面临严峻的权衡。虽然使用Vision Transformer (ViT)作为骨干网络的密集预测速度很快,但感知质量通常较差。相反,扩散模型提供高保真度,但计算成本过高。该框架首先利用基于ViT的模块快速生成高质量的初步深度图,作为结构先验,有效取代了扩散模型中耗时的初始结构生成阶段。基于此先验,提出了一种渐进线性混合细化(PLBR)策略,该策略使用轻量级U-Net在紧凑的潜在空间中高效地细化细节,该潜在空间由变分自编码器(VAE)支持。大量实验表明,$D^3$-RSMDE在LPIPS感知指标上比Marigold等领先模型降低了11.85%,同时推理速度提高了40倍以上,并且VRAM使用量与轻量级ViT模型相当。

🔬 方法详解

问题定义:遥感图像的单目深度估计是许多应用的关键,但现有方法在精度和效率之间存在严重的trade-off。基于ViT的方法速度快,但感知质量差;扩散模型精度高,但计算成本过高,难以实时应用。因此,如何高效且高质量地进行遥感图像的单目深度估计是一个挑战。

核心思路:本文的核心思路是结合ViT的速度优势和扩散模型的高保真度,通过一个高效的框架来实现遥感图像单目深度估计。具体来说,首先利用ViT快速生成一个初步的深度图,作为后续扩散模型的结构先验,从而避免了扩散模型从噪声中生成初始结构的耗时过程。然后,在VAE的潜在空间中,使用轻量级的U-Net进行细节的细化,进一步提升深度图的质量。

技术框架:$D^3$-RSMDE框架主要包含三个模块:基于ViT的深度图生成模块、变分自编码器(VAE)和渐进线性混合细化(PLBR)模块。首先,ViT模块快速生成初步的深度图。然后,VAE将深度图编码到紧凑的潜在空间中。最后,PLBR模块利用轻量级的U-Net在潜在空间中进行迭代细化,逐步提升深度图的细节和质量。

关键创新:该方法最重要的创新点在于利用ViT生成深度图先验,并结合扩散模型的细化能力,实现了速度和精度的平衡。与传统的扩散模型相比,该方法避免了从噪声中生成初始结构的步骤,大大降低了计算成本。与直接使用ViT的方法相比,该方法通过扩散模型的细化,显著提升了深度图的感知质量。

关键设计:PLBR模块是关键设计之一,它使用轻量级的U-Net在VAE的潜在空间中进行迭代细化。具体来说,PLBR采用渐进线性混合策略,逐步将U-Net的输出与ViT生成的深度图先验进行融合,从而在保证整体结构的同时,逐步提升细节。VAE的使用使得细化过程可以在紧凑的潜在空间中进行,进一步降低了计算成本。损失函数方面,可能使用了L1损失、L2损失或感知损失等,以保证深度图的精度和感知质量(具体损失函数细节未知)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,$D^3$-RSMDE在LPIPS感知指标上比Marigold等领先模型降低了11.85%,这意味着感知质量得到了显著提升。同时,该方法实现了超过40倍的推理速度提升,使得实时遥感图像深度估计成为可能。此外,该方法的VRAM使用量与轻量级ViT模型相当,易于部署和应用。

🎯 应用场景

该研究成果可广泛应用于遥感图像分析领域,例如三维城市建模、地形测绘、灾害评估、自动驾驶和农业监测等。高质量、高效率的深度估计能够提升这些应用场景的性能和精度,为相关领域的决策提供更可靠的数据支持,具有重要的实际应用价值和广阔的应用前景。

📄 摘要(原文)

Real-time, high-fidelity monocular depth estimation from remote sensing imagery is crucial for numerous applications, yet existing methods face a stark trade-off between accuracy and efficiency. Although using Vision Transformer (ViT) backbones for dense prediction is fast, they often exhibit poor perceptual quality. Conversely, diffusion models offer high fidelity but at a prohibitive computational cost. To overcome these limitations, we propose Depth Detail Diffusion for Remote Sensing Monocular Depth Estimation ($D^3$-RSMDE), an efficient framework designed to achieve an optimal balance between speed and quality. Our framework first leverages a ViT-based module to rapidly generate a high-quality preliminary depth map construction, which serves as a structural prior, effectively replacing the time-consuming initial structure generation stage of diffusion models. Based on this prior, we propose a Progressive Linear Blending Refinement (PLBR) strategy, which uses a lightweight U-Net to refine the details in only a few iterations. The entire refinement step operates efficiently in a compact latent space supported by a Variational Autoencoder (VAE). Extensive experiments demonstrate that $D^3$-RSMDE achieves a notable 11.85% reduction in the Learned Perceptual Image Patch Similarity (LPIPS) perceptual metric over leading models like Marigold, while also achieving over a 40x speedup in inference and maintaining VRAM usage comparable to lightweight ViT models.