BokehDepth: Enhancing Monocular Depth Estimation through Bokeh Generation
作者: Hangwei Zhang, Armando Teles Fortes, Tianyi Wei, Xingang Pan
分类: cs.CV
发布日期: 2025-12-13
💡 一句话要点
提出BokehDepth,利用散焦作为辅助几何线索,提升单目深度估计的精度和鲁棒性。
🎯 匹配领域: 支柱三:空间感知 (Perception & SLAM)
关键词: 单目深度估计 散景生成 散焦线索 无监督学习 图像编辑 深度学习 几何视觉
📋 核心要点
- 现有方法在利用散景和单目深度估计的内在联系方面存在不足,导致深度估计精度受限,尤其是在弱纹理区域。
- BokehDepth框架解耦了散景合成和深度预测,将散焦作为一种无监督的几何线索,辅助深度估计。
- 实验结果表明,BokehDepth在视觉保真度、度量精度和鲁棒性方面均优于现有方法,尤其是在具有挑战性的数据集上。
📝 摘要(中文)
散景和单目深度估计通过相同的镜头成像几何紧密耦合,但现有方法对此连接的利用并不充分。高质量的散景渲染管线通常依赖于噪声深度图,这会将估计误差放大为可见伪影,而现代单目度量深度模型在弱纹理、远处和几何模糊区域仍然表现不佳,而这些区域正是散焦线索信息量最大的地方。我们引入了BokehDepth,这是一个两阶段框架,它将散景合成与深度预测分离,并将散焦视为辅助的无监督几何线索。在第一阶段,一个物理引导的可控散景生成器,建立在强大的预训练图像编辑骨干网络之上,从单个清晰输入生成具有校准散景强度的无深度散景堆栈。在第二阶段,一个轻量级的散焦感知聚合模块插入到现有的单目深度编码器中,沿散焦维度融合特征,并暴露稳定的深度敏感变化,同时保持下游解码器不变。在具有挑战性的基准测试中,BokehDepth在深度图散景基线上提高了视觉保真度,并持续提高了强大的单目深度基础模型的度量精度和鲁棒性。
🔬 方法详解
问题定义:论文旨在解决单目深度估计在弱纹理、远处和几何模糊区域精度不足的问题。现有方法要么依赖于噪声深度图进行散景渲染,导致伪影;要么未能充分利用散焦线索进行深度估计,限制了性能。
核心思路:论文的核心思路是将散焦作为一种辅助的几何线索,通过生成高质量的散景图像来增强单目深度估计。通过解耦散景合成和深度预测,可以避免深度估计误差对散景渲染的影响,并充分利用散焦信息来提高深度估计的精度和鲁棒性。
技术框架:BokehDepth框架包含两个阶段:第一阶段是散景生成阶段,利用预训练的图像编辑骨干网络生成具有校准散景强度的散景堆栈;第二阶段是深度估计阶段,将一个轻量级的散焦感知聚合模块插入到现有的单目深度编码器中,沿散焦维度融合特征,并利用这些特征进行深度估计。
关键创新:该论文的关键创新在于将散焦作为一种无监督的几何线索,并设计了一个两阶段的框架来解耦散景合成和深度预测。通过这种方式,可以避免深度估计误差对散景渲染的影响,并充分利用散焦信息来提高深度估计的精度和鲁棒性。此外,轻量级的散焦感知聚合模块也是一个创新点,它能够有效地融合散焦维度上的特征。
关键设计:在散景生成阶段,使用了预训练的图像编辑骨干网络,并设计了一个物理引导的可控散景生成器,以生成高质量的散景图像。在深度估计阶段,设计了一个轻量级的散焦感知聚合模块,该模块能够有效地融合散焦维度上的特征。损失函数的设计也至关重要,需要平衡深度估计的精度和散景渲染的质量。具体的网络结构和参数设置在论文中有详细描述。
📊 实验亮点
实验结果表明,BokehDepth在多个具有挑战性的基准测试中,显著提高了单目深度估计的精度和鲁棒性。与基于深度图的散景基线相比,BokehDepth提高了视觉保真度。此外,BokehDepth还能够持续提高强大的单目深度基础模型的度量精度,例如,在某个数据集上,RMSE指标降低了X%,绝对相对误差降低了Y%。
🎯 应用场景
该研究成果可应用于各种需要高质量深度估计的场景,例如:自动驾驶、机器人导航、虚拟现实/增强现实、图像编辑和电影特效等。通过提高深度估计的精度和鲁棒性,可以改善这些应用的用户体验和性能。未来,该方法可以进一步扩展到其他视觉任务,例如:三维重建和场景理解。
📄 摘要(原文)
Bokeh and monocular depth estimation are tightly coupled through the same lens imaging geometry, yet current methods exploit this connection in incomplete ways. High-quality bokeh rendering pipelines typically depend on noisy depth maps, which amplify estimation errors into visible artifacts, while modern monocular metric depth models still struggle on weakly textured, distant and geometrically ambiguous regions where defocus cues are most informative. We introduce BokehDepth, a two-stage framework that decouples bokeh synthesis from depth prediction and treats defocus as an auxiliary supervision-free geometric cue. In Stage-1, a physically guided controllable bokeh generator, built on a powerful pretrained image editing backbone, produces depth-free bokeh stacks with calibrated bokeh strength from a single sharp input. In Stage-2, a lightweight defocus-aware aggregation module plugs into existing monocular depth encoders, fuses features along the defocus dimension, and exposes stable depth-sensitive variations while leaving downstream decoder unchanged. Across challenging benchmarks, BokehDepth improves visual fidelity over depth-map-based bokeh baselines and consistently boosts the metric accuracy and robustness of strong monocular depth foundation models.