Iris: Bringing Real-World Priors into Diffusion Model for Monocular Depth Estimation

作者: Xinhao Cai, Gensheng Pei, Zeren Sun, Yazhou Yao, Fumin Shen, Wenguan Wang

分类: cs.CV

发布日期: 2026-03-17

备注: Accepted by CVPR2026

💡 一句话要点

Iris：将真实世界先验知识融入单目深度估计扩散模型

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 单目深度估计 扩散模型 领域迁移 先验知识 确定性框架

📋 核心要点

传统单目深度估计方法依赖大量数据，泛化性差，且易丢失细节，扩散模型方法在真实场景迁移中存在困难。
Iris框架通过两阶段Priors-to-Geometry Deterministic（PGD）调度，将真实世界先验知识融入扩散模型，提升泛化能力。
实验结果表明，Iris在单目深度估计任务上取得了显著的性能提升，并展现出强大的真实场景泛化能力。

📝 摘要（中文）

本文提出了一种名为Iris的确定性单目深度估计（MDE）框架，该框架将真实世界的先验知识集成到扩散模型中。传统的feed-forward方法依赖于大量的训练数据，但仍然会丢失细节。先前的基于扩散的方法利用了丰富的生成先验，但在synthetic-to-real的领域迁移中表现不佳。相比之下，Iris保留了精细的细节，从合成场景到真实场景具有很强的泛化能力，并且在有限的训练数据下仍然保持高效。为此，我们引入了一个两阶段的Priors-to-Geometry Deterministic（PGD）调度：先验阶段使用Spectral-Gated Distillation（SGD）来传递低频真实先验，同时保持高频细节不受约束；几何阶段应用Spectral-Gated Consistency（SGC）来强制高频保真度，同时使用合成ground truth进行细化。这两个阶段共享权重，并以从高到低的时间步长顺序执行。大量的实验结果证实，Iris在MDE性能方面取得了显著的改进，并具有很强的in-the-wild泛化能力。

🔬 方法详解

问题定义：单目深度估计（MDE）旨在从单张图像中预测场景的深度信息。现有方法，特别是基于前馈神经网络的方法，通常需要大量的训练数据才能获得较好的性能，但在细节保留和真实场景泛化方面存在不足。基于扩散模型的方法虽然具有强大的生成能力，但在合成数据到真实数据的迁移过程中面临挑战，难以直接应用。

核心思路：Iris的核心思路是将真实世界的先验知识有效地融入到扩散模型中，从而提高单目深度估计的性能和泛化能力。通过设计一个两阶段的确定性调度策略，分别利用Spectral-Gated Distillation（SGD）和Spectral-Gated Consistency（SGC）来处理低频和高频信息，从而在保留细节的同时实现更好的领域迁移。

技术框架：Iris框架包含两个主要阶段：先验阶段和几何阶段。在先验阶段，使用Spectral-Gated Distillation（SGD）将低频的真实世界先验知识传递到模型中，同时保持高频细节不受约束。在几何阶段，应用Spectral-Gated Consistency（SGC）来强制高频信息的保真度，并使用合成数据的ground truth进行细化。这两个阶段共享权重，并按照从高到低的时间步长顺序执行。

关键创新：Iris的关键创新在于提出了一个两阶段的Priors-to-Geometry Deterministic（PGD）调度策略，该策略能够有效地将真实世界的先验知识融入到扩散模型中。通过Spectral-Gated Distillation（SGD）和Spectral-Gated Consistency（SGC）的结合，实现了低频先验知识的传递和高频细节的保留，从而提高了单目深度估计的性能和泛化能力。与现有方法相比，Iris能够在有限的训练数据下实现更好的性能，并具有更强的真实场景泛化能力。

关键设计：Iris的关键设计包括：1) Spectral-Gated Distillation（SGD）：通过频谱门控的方式，选择性地传递低频的真实世界先验知识，同时避免对高频细节的过度约束。2) Spectral-Gated Consistency（SGC）：通过频谱门控的方式，强制高频信息的保真度，并使用合成数据的ground truth进行细化。3) 两阶段共享权重的设计：使得模型能够在两个阶段之间有效地传递信息，从而提高整体性能。4) 从高到低的时间步长调度：使得模型能够逐步地将先验知识融入到深度估计中。

🖼️ 关键图片

📊 实验亮点

Iris在单目深度估计任务上取得了显著的性能提升，尤其是在真实场景的泛化能力方面。实验结果表明，Iris在多个数据集上超越了现有的方法，并且在有限的训练数据下仍然能够保持较高的性能。具体的性能数据和对比基线需要在论文中查找。

🎯 应用场景

Iris框架在单目深度估计领域具有广泛的应用前景，可应用于自动驾驶、机器人导航、增强现实等领域。该方法能够提高深度估计的准确性和鲁棒性，从而提升相关应用的性能和用户体验。此外，该研究对于将先验知识融入深度学习模型具有一定的借鉴意义，可以推广到其他计算机视觉任务中。

📄 摘要（原文）

In this paper, we propose \textbf{Iris}, a deterministic framework for Monocular Depth Estimation (MDE) that integrates real-world priors into the diffusion model. Conventional feed-forward methods rely on massive training data, yet still miss details. Previous diffusion-based methods leverage rich generative priors yet struggle with synthetic-to-real domain transfer. Iris, in contrast, preserves fine details, generalizes strongly from synthetic to real scenes, and remains efficient with limited training data. To this end, we introduce a two-stage Priors-to-Geometry Deterministic (PGD) schedule: the prior stage uses Spectral-Gated Distillation (SGD) to transfer low-frequency real priors while leaving high-frequency details unconstrained, and the geometry stage applies Spectral-Gated Consistency (SGC) to enforce high-frequency fidelity while refining with synthetic ground truth. The two stages share weights and are executed with a high-to-low timestep schedule. Extensive experimental results confirm that Iris achieves significant improvements in MDE performance with strong in-the-wild generalization.

Iris: Bringing Real-World Priors into Diffusion Model for Monocular Depth Estimation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理