$D^3$-RSMDE: 40$\times$ Faster and High-Fidelity Remote Sensing Monocular Depth Estimation

作者: Ruizhi Wang, Weihan Li, Zunlei Feng, Haofei Zhang, Mingli Song, Jiayu Wang, Jie Song, Li Sun

分类: cs.CV, cs.AI

发布日期: 2026-03-17

💡 一句话要点

提出D³-RSMDE框架，加速40倍并提升遥感单目深度估计质量

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 遥感图像 单目深度估计 扩散模型 Vision Transformer 深度图细化

📋 核心要点

遥感图像单目深度估计需要在精度和效率之间权衡，现有方法难以兼顾。
D³-RSMDE利用ViT快速生成深度图先验，并用轻量级U-Net在VAE潜在空间中进行细节细化。
实验表明，D³-RSMDE在显著提升推理速度的同时，降低了LPIPS指标，提高了感知质量。

📝 摘要（中文）

本文提出用于遥感单目深度估计的深度细节扩散模型（$D^3$-RSMDE），旨在实现速度和质量之间的最佳平衡。现有方法在精度和效率之间面临严峻的权衡。虽然使用Vision Transformer (ViT)作为骨干网络的密集预测速度很快，但感知质量通常较差。相反，扩散模型提供高保真度，但计算成本过高。该框架首先利用基于ViT的模块快速生成高质量的初步深度图，作为结构先验，有效取代了扩散模型中耗时的初始结构生成阶段。基于此先验，提出了一种渐进线性混合细化（PLBR）策略，该策略使用轻量级U-Net在紧凑的潜在空间中高效地细化细节，该潜在空间由变分自编码器（VAE）支持。大量实验表明，$D^3$-RSMDE在LPIPS感知指标上比Marigold等领先模型降低了11.85%，同时推理速度提高了40倍以上，并且VRAM使用量与轻量级ViT模型相当。

🔬 方法详解

问题定义：遥感图像的单目深度估计是许多应用的关键，但现有方法在精度和效率之间存在严重的trade-off。基于ViT的方法速度快，但感知质量差；扩散模型精度高，但计算成本过高，难以实时应用。因此，如何高效且高质量地进行遥感图像的单目深度估计是一个挑战。

核心思路：本文的核心思路是结合ViT的速度优势和扩散模型的高保真度，通过一个高效的框架来实现遥感图像单目深度估计。具体来说，首先利用ViT快速生成一个初步的深度图，作为后续扩散模型的结构先验，从而避免了扩散模型从噪声中生成初始结构的耗时过程。然后，在VAE的潜在空间中，使用轻量级的U-Net进行细节的细化，进一步提升深度图的质量。

技术框架：$D^3$-RSMDE框架主要包含三个模块：基于ViT的深度图生成模块、变分自编码器（VAE）和渐进线性混合细化（PLBR）模块。首先，ViT模块快速生成初步的深度图。然后，VAE将深度图编码到紧凑的潜在空间中。最后，PLBR模块利用轻量级的U-Net在潜在空间中进行迭代细化，逐步提升深度图的细节和质量。

关键创新：该方法最重要的创新点在于利用ViT生成深度图先验，并结合扩散模型的细化能力，实现了速度和精度的平衡。与传统的扩散模型相比，该方法避免了从噪声中生成初始结构的步骤，大大降低了计算成本。与直接使用ViT的方法相比，该方法通过扩散模型的细化，显著提升了深度图的感知质量。

关键设计：PLBR模块是关键设计之一，它使用轻量级的U-Net在VAE的潜在空间中进行迭代细化。具体来说，PLBR采用渐进线性混合策略，逐步将U-Net的输出与ViT生成的深度图先验进行融合，从而在保证整体结构的同时，逐步提升细节。VAE的使用使得细化过程可以在紧凑的潜在空间中进行，进一步降低了计算成本。损失函数方面，可能使用了L1损失、L2损失或感知损失等，以保证深度图的精度和感知质量（具体损失函数细节未知）。

🖼️ 关键图片

📊 实验亮点

实验结果表明，$D^3$-RSMDE在LPIPS感知指标上比Marigold等领先模型降低了11.85%，这意味着感知质量得到了显著提升。同时，该方法实现了超过40倍的推理速度提升，使得实时遥感图像深度估计成为可能。此外，该方法的VRAM使用量与轻量级ViT模型相当，易于部署和应用。

🎯 应用场景

该研究成果可广泛应用于遥感图像分析领域，例如三维城市建模、地形测绘、灾害评估、自动驾驶和农业监测等。高质量、高效率的深度估计能够提升这些应用场景的性能和精度，为相关领域的决策提供更可靠的数据支持，具有重要的实际应用价值和广阔的应用前景。

📄 摘要（原文）

Real-time, high-fidelity monocular depth estimation from remote sensing imagery is crucial for numerous applications, yet existing methods face a stark trade-off between accuracy and efficiency. Although using Vision Transformer (ViT) backbones for dense prediction is fast, they often exhibit poor perceptual quality. Conversely, diffusion models offer high fidelity but at a prohibitive computational cost. To overcome these limitations, we propose Depth Detail Diffusion for Remote Sensing Monocular Depth Estimation ($D^3$-RSMDE), an efficient framework designed to achieve an optimal balance between speed and quality. Our framework first leverages a ViT-based module to rapidly generate a high-quality preliminary depth map construction, which serves as a structural prior, effectively replacing the time-consuming initial structure generation stage of diffusion models. Based on this prior, we propose a Progressive Linear Blending Refinement (PLBR) strategy, which uses a lightweight U-Net to refine the details in only a few iterations. The entire refinement step operates efficiently in a compact latent space supported by a Variational Autoencoder (VAE). Extensive experiments demonstrate that $D^3$-RSMDE achieves a notable 11.85% reduction in the Learned Perceptual Image Patch Similarity (LPIPS) perceptual metric over leading models like Marigold, while also achieving over a 40x speedup in inference and maintaining VRAM usage comparable to lightweight ViT models.

$D^3$-RSMDE: 40$\times$ Faster and High-Fidelity Remote Sensing Monocular Depth Estimation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理