Iris: Bringing Real-World Priors into Diffusion Model for Monocular Depth Estimation

📄 arXiv: 2603.16340v1 📥 PDF

作者: Xinhao Cai, Gensheng Pei, Zeren Sun, Yazhou Yao, Fumin Shen, Wenguan Wang

分类: cs.CV

发布日期: 2026-03-17

备注: Accepted by CVPR2026


💡 一句话要点

Iris:将真实世界先验知识融入单目深度估计扩散模型

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 单目深度估计 扩散模型 领域迁移 先验知识 确定性框架

📋 核心要点

  1. 传统单目深度估计方法依赖大量数据,泛化性差,且易丢失细节,扩散模型方法在真实场景迁移中存在困难。
  2. Iris框架通过两阶段Priors-to-Geometry Deterministic(PGD)调度,将真实世界先验知识融入扩散模型,提升泛化能力。
  3. 实验结果表明,Iris在单目深度估计任务上取得了显著的性能提升,并展现出强大的真实场景泛化能力。

📝 摘要(中文)

本文提出了一种名为Iris的确定性单目深度估计(MDE)框架,该框架将真实世界的先验知识集成到扩散模型中。传统的feed-forward方法依赖于大量的训练数据,但仍然会丢失细节。先前的基于扩散的方法利用了丰富的生成先验,但在synthetic-to-real的领域迁移中表现不佳。相比之下,Iris保留了精细的细节,从合成场景到真实场景具有很强的泛化能力,并且在有限的训练数据下仍然保持高效。为此,我们引入了一个两阶段的Priors-to-Geometry Deterministic(PGD)调度:先验阶段使用Spectral-Gated Distillation(SGD)来传递低频真实先验,同时保持高频细节不受约束;几何阶段应用Spectral-Gated Consistency(SGC)来强制高频保真度,同时使用合成ground truth进行细化。这两个阶段共享权重,并以从高到低的时间步长顺序执行。大量的实验结果证实,Iris在MDE性能方面取得了显著的改进,并具有很强的in-the-wild泛化能力。

🔬 方法详解

问题定义:单目深度估计(MDE)旨在从单张图像中预测场景的深度信息。现有方法,特别是基于前馈神经网络的方法,通常需要大量的训练数据才能获得较好的性能,但在细节保留和真实场景泛化方面存在不足。基于扩散模型的方法虽然具有强大的生成能力,但在合成数据到真实数据的迁移过程中面临挑战,难以直接应用。

核心思路:Iris的核心思路是将真实世界的先验知识有效地融入到扩散模型中,从而提高单目深度估计的性能和泛化能力。通过设计一个两阶段的确定性调度策略,分别利用Spectral-Gated Distillation(SGD)和Spectral-Gated Consistency(SGC)来处理低频和高频信息,从而在保留细节的同时实现更好的领域迁移。

技术框架:Iris框架包含两个主要阶段:先验阶段和几何阶段。在先验阶段,使用Spectral-Gated Distillation(SGD)将低频的真实世界先验知识传递到模型中,同时保持高频细节不受约束。在几何阶段,应用Spectral-Gated Consistency(SGC)来强制高频信息的保真度,并使用合成数据的ground truth进行细化。这两个阶段共享权重,并按照从高到低的时间步长顺序执行。

关键创新:Iris的关键创新在于提出了一个两阶段的Priors-to-Geometry Deterministic(PGD)调度策略,该策略能够有效地将真实世界的先验知识融入到扩散模型中。通过Spectral-Gated Distillation(SGD)和Spectral-Gated Consistency(SGC)的结合,实现了低频先验知识的传递和高频细节的保留,从而提高了单目深度估计的性能和泛化能力。与现有方法相比,Iris能够在有限的训练数据下实现更好的性能,并具有更强的真实场景泛化能力。

关键设计:Iris的关键设计包括:1) Spectral-Gated Distillation(SGD):通过频谱门控的方式,选择性地传递低频的真实世界先验知识,同时避免对高频细节的过度约束。2) Spectral-Gated Consistency(SGC):通过频谱门控的方式,强制高频信息的保真度,并使用合成数据的ground truth进行细化。3) 两阶段共享权重的设计:使得模型能够在两个阶段之间有效地传递信息,从而提高整体性能。4) 从高到低的时间步长调度:使得模型能够逐步地将先验知识融入到深度估计中。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Iris在单目深度估计任务上取得了显著的性能提升,尤其是在真实场景的泛化能力方面。实验结果表明,Iris在多个数据集上超越了现有的方法,并且在有限的训练数据下仍然能够保持较高的性能。具体的性能数据和对比基线需要在论文中查找。

🎯 应用场景

Iris框架在单目深度估计领域具有广泛的应用前景,可应用于自动驾驶、机器人导航、增强现实等领域。该方法能够提高深度估计的准确性和鲁棒性,从而提升相关应用的性能和用户体验。此外,该研究对于将先验知识融入深度学习模型具有一定的借鉴意义,可以推广到其他计算机视觉任务中。

📄 摘要(原文)

In this paper, we propose \textbf{Iris}, a deterministic framework for Monocular Depth Estimation (MDE) that integrates real-world priors into the diffusion model. Conventional feed-forward methods rely on massive training data, yet still miss details. Previous diffusion-based methods leverage rich generative priors yet struggle with synthetic-to-real domain transfer. Iris, in contrast, preserves fine details, generalizes strongly from synthetic to real scenes, and remains efficient with limited training data. To this end, we introduce a two-stage Priors-to-Geometry Deterministic (PGD) schedule: the prior stage uses Spectral-Gated Distillation (SGD) to transfer low-frequency real priors while leaving high-frequency details unconstrained, and the geometry stage applies Spectral-Gated Consistency (SGC) to enforce high-frequency fidelity while refining with synthetic ground truth. The two stages share weights and are executed with a high-to-low timestep schedule. Extensive experimental results confirm that Iris achieves significant improvements in MDE performance with strong in-the-wild generalization.