Zero-Shot Depth from Defocus

作者: Yiming Zuo, Hongyu Wen, Venkat Subramanian, Patrick Chen, Karhan Kayan, Mario Bijelic, Felix Heide, Jia Deng

分类: cs.CV

发布日期: 2026-03-27

🔗 代码/项目: GITHUB

💡 一句话要点

提出FOSSA网络和ZEDD基准，实现零样本深度从离焦估计。

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 深度从离焦 零样本学习 Transformer网络 焦点堆栈 深度估计

📋 核心要点

现有深度从离焦方法过拟合特定数据集，泛化能力差，难以应用于真实场景。
提出FOSSA网络，利用Transformer架构和焦点距离嵌入的堆叠注意力层，有效交换焦点堆栈信息。
构建高质量真实世界基准ZEDD，并利用RGBD数据合成训练集，实验结果显著优于现有方法，误差降低高达55.7%。

📝 摘要（中文）

本文致力于解决零样本深度从离焦(DfD)这一具有挑战性和实用性的问题。为此，我们首先提出了一个新的真实世界DfD基准ZEDD，它包含的场景数量是先前基准的8.3倍，并且具有显著更高质量的图像和真值深度图。此外，我们设计了一种名为FOSSA的新型网络架构。FOSSA是一种基于Transformer的架构，具有针对DfD任务量身定制的新颖设计。其关键贡献在于具有焦点距离嵌入的堆叠注意力层，从而可以有效地在焦点堆栈之间进行信息交换。最后，我们开发了一种新的训练数据管道，使我们能够利用现有的大规模RGBD数据集来生成合成焦点堆栈。在ZEDD和其他基准上的实验结果表明，与基线相比，性能得到了显著提高，误差最多降低了55.7%。ZEDD基准已在https://zedd.cs.princeton.edu发布。代码和检查点已在https://github.com/princeton-vl/FOSSA发布。

🔬 方法详解

问题定义：论文旨在解决深度从离焦(Depth from Defocus, DfD)任务中的零样本泛化问题。现有的DfD方法通常在特定数据集上进行训练，导致模型过拟合该数据集，无法很好地泛化到新的、未见过的场景中。这限制了DfD技术在实际应用中的可行性。

核心思路：论文的核心思路是设计一个能够有效利用焦点堆栈信息，并且具有良好泛化能力的深度学习模型。通过引入Transformer架构和焦点距离嵌入，模型能够更好地理解焦点堆栈中不同图像之间的关系，从而更准确地估计深度。同时，利用合成数据进行训练，增强模型的泛化能力。

技术框架：整体框架包含数据准备、模型训练和深度估计三个主要阶段。首先，利用真实RGBD数据集生成合成焦点堆栈数据。然后，使用生成的合成数据训练FOSSA网络。最后，将训练好的FOSSA网络应用于新的焦点堆栈图像，估计深度图。FOSSA网络是基于Transformer的编码器-解码器结构，编码器用于提取焦点堆栈的特征，解码器用于生成深度图。

关键创新：论文的关键创新在于提出了具有焦点距离嵌入的堆叠注意力层。该层允许网络在处理焦点堆栈时，能够显式地考虑每个图像的焦点距离，从而更好地理解不同图像之间的关系。与传统的注意力机制相比，堆叠注意力层能够更有效地利用焦点堆栈信息，提高深度估计的准确性。

关键设计：FOSSA网络使用Transformer编码器-解码器结构，编码器由多个Transformer块组成，每个Transformer块包含自注意力层和前馈神经网络。堆叠注意力层被集成到Transformer块中，用于处理焦点堆栈。焦点距离嵌入是一个可学习的向量，用于表示每个图像的焦点距离。损失函数采用L1损失和结构相似性损失(SSIM)的组合，以提高深度估计的准确性和视觉质量。

🖼️ 关键图片

📊 实验亮点

实验结果表明，FOSSA网络在ZEDD基准和其他基准上均取得了显著的性能提升。在ZEDD基准上，FOSSA网络相比于现有方法，误差降低了高达55.7%。此外，消融实验验证了堆叠注意力层和焦点距离嵌入的有效性。这些结果表明，FOSSA网络具有良好的泛化能力和深度估计准确性。

🎯 应用场景

该研究成果可应用于机器人导航、自动驾驶、三维重建等领域。通过零样本深度估计，机器人和自动驾驶系统能够在未知环境中感知周围环境的深度信息，从而实现自主导航和避障。此外，该技术还可以用于从焦点堆栈图像中重建三维模型，为虚拟现实和增强现实应用提供支持。

📄 摘要（原文）

Depth from Defocus (DfD) is the task of estimating a dense metric depth map from a focus stack. Unlike previous works overfitting to a certain dataset, this paper focuses on the challenging and practical setting of zero-shot generalization. We first propose a new real-world DfD benchmark ZEDD, which contains 8.3x more scenes and significantly higher quality images and ground-truth depth maps compared to previous benchmarks. We also design a novel network architecture named FOSSA. FOSSA is a Transformer-based architecture with novel designs tailored to the DfD task. The key contribution is a stack attention layer with a focus distance embedding, allowing efficient information exchange across the focus stack. Finally, we develop a new training data pipeline allowing us to utilize existing large-scale RGBD datasets to generate synthetic focus stacks. Experiment results on ZEDD and other benchmarks show a significant improvement over the baselines, reducing errors by up to 55.7%. The ZEDD benchmark is released at https://zedd.cs.princeton.edu. The code and checkpoints are released at https://github.com/princeton-vl/FOSSA.

Zero-Shot Depth from Defocus

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理