Occlusion Boundary and Depth: Mutual Enhancement via Multi-Task Learning
作者: Lintao Xu, Yinghao Wang, Chaohui Wang
分类: cs.CV
发布日期: 2025-05-27 (更新: 2025-11-26)
备注: WACV 2026
🔗 代码/项目: GITHUB
💡 一句话要点
提出MoDOT框架,通过多任务学习互增强遮挡边界和单目深度估计
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱七:动作重定向 (Motion Retargeting)
关键词: 单目深度估计 遮挡边界检测 多任务学习 交叉注意力机制 几何约束 深度学习 场景理解
📋 核心要点
- 单目深度估计和遮挡边界检测密切相关,但现有方法未能充分利用它们之间的互补关系。
- MoDOT框架通过交叉注意力模块和约束损失,显式地建模和利用遮挡边界与深度之间的相互增强作用。
- 实验表明,MoDOT在合成和真实数据集上均优于现有方法,且具有良好的泛化能力。
📝 摘要(中文)
本文提出了一种名为MoDOT的新框架,用于联合估计深度和遮挡边界。遮挡边界估计(OBE)识别由对象间遮挡和对象内自遮挡产生的边界。单目深度估计(MDE)从单个图像推断深度,OB为解决深度歧义提供关键几何线索,而深度反过来可以优化遮挡推理。MoDOT包含一个新的交叉注意力条模块(CASM),利用中间层OB特征进行深度预测,以及一个新的OB-深度约束损失(OBDCL)来加强几何一致性。为了支持这项研究,我们贡献了OB-Hypersim,一个具有精确深度和自遮挡处理的OB注释的大规模照片级真实感数据集。大量实验表明,MoDOT优于单任务基线和多任务竞争对手。仅在合成数据上训练的模型在没有微调的情况下,对真实场景表现出强大的泛化能力,生成具有更清晰边界和改进几何保真度的深度图。结果表明联合建模OB和深度的显著优势。
🔬 方法详解
问题定义:论文旨在解决单目图像中深度估计和遮挡边界检测问题。现有方法通常独立处理这两个任务,忽略了它们之间的内在联系。深度估计可以帮助理解场景的几何结构,从而辅助遮挡边界的判断;反之,遮挡边界提供了深度不连续的信息,有助于深度估计。因此,如何有效地利用这两个任务之间的互补信息是关键挑战。
核心思路:论文的核心思路是通过多任务学习框架,同时预测深度和遮挡边界,并设计特定的模块和损失函数来显式地建模它们之间的相互作用。具体来说,利用遮挡边界的中间层特征来指导深度预测,并使用约束损失来保证深度和遮挡边界在几何上的一致性。
技术框架:MoDOT框架包含两个主要分支:深度估计分支和遮挡边界估计分支。这两个分支共享一部分特征提取网络。深度估计分支使用交叉注意力条模块(CASM)来融合遮挡边界分支提取的中间层特征。框架还包含一个OB-深度约束损失(OBDCL),用于约束深度和遮挡边界之间的一致性。整体流程是:输入单目图像,经过共享特征提取网络,分别进入深度估计分支和遮挡边界估计分支,最后通过损失函数进行联合优化。
关键创新:论文的关键创新在于提出了交叉注意力条模块(CASM)和OB-深度约束损失(OBDCL)。CASM能够有效地将遮挡边界的中间层特征融入到深度估计中,从而利用遮挡边界的信息来提升深度估计的准确性。OBDCL则通过约束深度梯度和遮挡边界之间的关系,保证了深度和遮挡边界在几何上的一致性。
关键设计:CASM模块的设计灵感来自于注意力机制,它通过学习遮挡边界特征对深度特征的权重,从而实现特征融合。OBDCL损失函数的设计基于深度梯度在遮挡边界处应该较大的假设,通过惩罚深度梯度在非遮挡边界处的较大值,来约束深度和遮挡边界的一致性。此外,论文还构建了一个大规模的合成数据集OB-Hypersim,用于训练和评估模型。
🖼️ 关键图片
📊 实验亮点
MoDOT在合成数据集和NYUD-v2数据集上均取得了显著的性能提升。在NYUD-v2数据集上,MoDOT的深度估计性能优于单任务基线和多任务竞争对手。更重要的是,仅在合成数据上训练的MoDOT模型,在真实场景中表现出强大的泛化能力,生成的深度图具有更清晰的边界和更高的几何保真度。
🎯 应用场景
该研究成果可应用于机器人导航、自动驾驶、三维重建、场景理解等领域。更精确的深度估计和遮挡边界检测能够帮助机器人更好地理解周围环境,从而做出更合理的决策。例如,在自动驾驶中,准确的深度信息可以帮助车辆避开障碍物,而遮挡边界可以帮助车辆识别潜在的危险区域。
📄 摘要(原文)
Occlusion Boundary Estimation (OBE) identifies boundaries arising from both inter-object occlusions and self-occlusion within individual objects. This task is closely related to Monocular Depth Estimation (MDE), which infers depth from a single image, as Occlusion Boundaries (OBs) provide critical geometric cues for resolving depth ambiguities, while depth can conversely refine occlusion reasoning. In this paper, we aim to systematically model and exploit this mutually beneficial relationship. To this end, we propose MoDOT, a novel framework for joint estimation of depth and OBs, which incorporates a new Cross-Attention Strip Module (CASM) to leverage mid-level OB features for depth prediction, and a novel OB-Depth Constraint Loss (OBDCL) to enforce geometric consistency. To facilitate this study, we contribute OB-Hypersim, a large-scale photorealistic dataset with precise depth and self-occlusion-handled OB annotations. Extensive experiments on two synthetic datasets and NYUD-v2 demonstrate that MoDOT achieves significantly better performance than single-task baselines and multi-task competitors. Furthermore, models trained solely on our synthetic data demonstrate strong generalization to real-world scenes without fine-tuning, producing depth maps with sharper boundaries and improved geometric fidelity. Collectively, these results underscore the significant benefits of jointly modeling OBs and depth. Code and resources are available at https://github.com/xul-ops/MoDOT.