Zero-Shot Depth from Defocus
作者: Yiming Zuo, Hongyu Wen, Venkat Subramanian, Patrick Chen, Karhan Kayan, Mario Bijelic, Felix Heide, Jia Deng
分类: cs.CV
发布日期: 2026-03-27
🔗 代码/项目: GITHUB
💡 一句话要点
提出FOSSA网络和ZEDD基准,实现零样本深度从离焦估计。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 深度从离焦 零样本学习 Transformer网络 焦点堆栈 深度估计
📋 核心要点
- 现有深度从离焦方法过拟合特定数据集,泛化能力差,难以应用于真实场景。
- 提出FOSSA网络,利用Transformer架构和焦点距离嵌入的堆叠注意力层,有效交换焦点堆栈信息。
- 构建高质量真实世界基准ZEDD,并利用RGBD数据合成训练集,实验结果显著优于现有方法,误差降低高达55.7%。
📝 摘要(中文)
本文致力于解决零样本深度从离焦(DfD)这一具有挑战性和实用性的问题。为此,我们首先提出了一个新的真实世界DfD基准ZEDD,它包含的场景数量是先前基准的8.3倍,并且具有显著更高质量的图像和真值深度图。此外,我们设计了一种名为FOSSA的新型网络架构。FOSSA是一种基于Transformer的架构,具有针对DfD任务量身定制的新颖设计。其关键贡献在于具有焦点距离嵌入的堆叠注意力层,从而可以有效地在焦点堆栈之间进行信息交换。最后,我们开发了一种新的训练数据管道,使我们能够利用现有的大规模RGBD数据集来生成合成焦点堆栈。在ZEDD和其他基准上的实验结果表明,与基线相比,性能得到了显著提高,误差最多降低了55.7%。ZEDD基准已在https://zedd.cs.princeton.edu发布。代码和检查点已在https://github.com/princeton-vl/FOSSA发布。
🔬 方法详解
问题定义:论文旨在解决深度从离焦(Depth from Defocus, DfD)任务中的零样本泛化问题。现有的DfD方法通常在特定数据集上进行训练,导致模型过拟合该数据集,无法很好地泛化到新的、未见过的场景中。这限制了DfD技术在实际应用中的可行性。
核心思路:论文的核心思路是设计一个能够有效利用焦点堆栈信息,并且具有良好泛化能力的深度学习模型。通过引入Transformer架构和焦点距离嵌入,模型能够更好地理解焦点堆栈中不同图像之间的关系,从而更准确地估计深度。同时,利用合成数据进行训练,增强模型的泛化能力。
技术框架:整体框架包含数据准备、模型训练和深度估计三个主要阶段。首先,利用真实RGBD数据集生成合成焦点堆栈数据。然后,使用生成的合成数据训练FOSSA网络。最后,将训练好的FOSSA网络应用于新的焦点堆栈图像,估计深度图。FOSSA网络是基于Transformer的编码器-解码器结构,编码器用于提取焦点堆栈的特征,解码器用于生成深度图。
关键创新:论文的关键创新在于提出了具有焦点距离嵌入的堆叠注意力层。该层允许网络在处理焦点堆栈时,能够显式地考虑每个图像的焦点距离,从而更好地理解不同图像之间的关系。与传统的注意力机制相比,堆叠注意力层能够更有效地利用焦点堆栈信息,提高深度估计的准确性。
关键设计:FOSSA网络使用Transformer编码器-解码器结构,编码器由多个Transformer块组成,每个Transformer块包含自注意力层和前馈神经网络。堆叠注意力层被集成到Transformer块中,用于处理焦点堆栈。焦点距离嵌入是一个可学习的向量,用于表示每个图像的焦点距离。损失函数采用L1损失和结构相似性损失(SSIM)的组合,以提高深度估计的准确性和视觉质量。
🖼️ 关键图片
📊 实验亮点
实验结果表明,FOSSA网络在ZEDD基准和其他基准上均取得了显著的性能提升。在ZEDD基准上,FOSSA网络相比于现有方法,误差降低了高达55.7%。此外,消融实验验证了堆叠注意力层和焦点距离嵌入的有效性。这些结果表明,FOSSA网络具有良好的泛化能力和深度估计准确性。
🎯 应用场景
该研究成果可应用于机器人导航、自动驾驶、三维重建等领域。通过零样本深度估计,机器人和自动驾驶系统能够在未知环境中感知周围环境的深度信息,从而实现自主导航和避障。此外,该技术还可以用于从焦点堆栈图像中重建三维模型,为虚拟现实和增强现实应用提供支持。
📄 摘要(原文)
Depth from Defocus (DfD) is the task of estimating a dense metric depth map from a focus stack. Unlike previous works overfitting to a certain dataset, this paper focuses on the challenging and practical setting of zero-shot generalization. We first propose a new real-world DfD benchmark ZEDD, which contains 8.3x more scenes and significantly higher quality images and ground-truth depth maps compared to previous benchmarks. We also design a novel network architecture named FOSSA. FOSSA is a Transformer-based architecture with novel designs tailored to the DfD task. The key contribution is a stack attention layer with a focus distance embedding, allowing efficient information exchange across the focus stack. Finally, we develop a new training data pipeline allowing us to utilize existing large-scale RGBD datasets to generate synthetic focus stacks. Experiment results on ZEDD and other benchmarks show a significant improvement over the baselines, reducing errors by up to 55.7%. The ZEDD benchmark is released at https://zedd.cs.princeton.edu. The code and checkpoints are released at https://github.com/princeton-vl/FOSSA.