Focusable Monocular Depth Estimation

📄 arXiv: 2605.11756v1 📥 PDF

作者: Yuxin Du, Tao Lin, Zile Zhong, Runting Li, Xiyao Chen, Jiting Liu, Chenglin Liu, Ying-Cong Chen, Yuqian Fu, Bo Zhao

分类: cs.CV, cs.AI

发布日期: 2026-05-12


💡 一句话要点

提出FocusDepth,解决单目深度估计中目标区域深度精度不足的问题。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 单目深度估计 目标聚焦 深度学习 空间对齐 多尺度融合

📋 核心要点

  1. 现有单目深度估计模型难以区分用户指定或任务相关的目标区域,导致目标区域深度精度不足。
  2. FocusDepth通过多尺度空间对齐融合(MSSA)模块,将目标提示信息注入深度估计模型,使其聚焦于目标区域。
  3. FDE-Bench基准测试表明,FocusDepth在目标区域深度估计方面显著优于现有方法,并保持了全局场景几何结构。

📝 摘要(中文)

单目深度基础模型在不同场景中具有良好的泛化性,但通常使用均匀的像素级目标进行优化,无法区分用户指定或任务相关的目标区域与周围环境。因此,我们引入了可聚焦单目深度估计(FDE),这是一个区域感知的深度估计任务,在该任务中,给定一个指定的目标区域,模型需要优先考虑前景深度精度,保持清晰的边界过渡,并保持连贯的全局场景几何结构。为了优先考虑任务关键区域建模,我们提出了FocusDepth,一个提示条件下的单目相对深度估计框架,该框架通过框/文本提示引导深度建模以关注目标区域。FocusDepth中的核心多尺度空间对齐融合(MSSA)将来自Segment Anything Model的多尺度特征空间对齐到Depth Anything系列,并通过特定尺度的门控条件融合注入它们。这使得能够进行密集的提示线索注入,而不会破坏几何表示,从而赋予深度估计模型以聚焦感知能力。为了研究FDE,我们建立了FDE-Bench,这是一个以目标为中心的单目相对深度基准,由跨五个数据集的图像-目标-深度三元组构建,包含252.9K/72.5K个训练/验证三元组和972个类别,涵盖真实世界和具身模拟环境。在FDE-Bench上,FocusDepth在框和文本提示下始终优于全局微调的DA2/DA3基线,最大的增益出现在目标边界和前景区域,同时保持全局场景几何结构。消融实验表明,MSSA的空间对齐是关键设计因素,因为破坏提示-几何对应关系会使AbsRel增加高达13.8%。

🔬 方法详解

问题定义:现有的单目深度估计模型通常采用全局优化策略,对图像中的所有像素同等对待,忽略了用户或任务对特定区域的关注需求。这导致模型在目标区域的深度估计精度不足,无法满足需要精细深度信息的应用场景。现有方法缺乏对目标区域的针对性优化,无法有效利用用户提供的提示信息(如边界框、文本描述等)。

核心思路:FocusDepth的核心思路是利用用户提供的目标提示信息,引导深度估计模型将注意力集中在目标区域,从而提高目标区域的深度估计精度。通过空间对齐和特征融合,将提示信息有效地融入到深度估计模型的特征表示中,实现对目标区域的精细化建模。

技术框架:FocusDepth框架主要包含以下几个模块:1) 提示编码模块:用于提取用户提供的目标提示信息(如边界框、文本描述等)的特征表示。2) 多尺度空间对齐融合(MSSA)模块:将来自Segment Anything Model (SAM) 的多尺度特征与Depth Anything (DA) 系列的深度特征进行空间对齐,并通过门控机制进行融合,从而将提示信息注入到深度估计模型中。3) 深度估计模块:基于融合后的特征表示,预测图像的深度图。整体流程是,首先利用提示编码模块提取提示特征,然后通过MSSA模块将提示特征与深度特征进行融合,最后利用深度估计模块预测深度图。

关键创新:FocusDepth的关键创新在于多尺度空间对齐融合(MSSA)模块。该模块能够有效地将来自不同来源(SAM和DA)的多尺度特征进行空间对齐,并利用门控机制控制提示信息的注入量,从而避免了提示信息对全局场景几何结构的干扰。MSSA模块的设计使得FocusDepth能够充分利用提示信息,提高目标区域的深度估计精度,同时保持全局场景的连贯性。

关键设计:MSSA模块的关键设计包括:1) 空间对齐:利用可变形卷积等技术,将SAM和DA的特征在空间上进行对齐,确保提示信息能够准确地注入到目标区域的特征表示中。2) 门控机制:使用门控单元控制提示信息的注入量,避免提示信息对非目标区域的干扰。3) 多尺度融合:将不同尺度的特征进行融合,从而捕捉目标区域的多尺度信息,提高深度估计的鲁棒性。损失函数方面,可能采用了针对目标区域的加权损失,以提高目标区域的深度估计精度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在FDE-Bench基准测试中,FocusDepth在框和文本提示下均优于全局微调的DA2/DA3基线。在目标边界和前景区域,FocusDepth的深度估计精度提升最为显著,同时保持了全局场景几何结构。消融实验表明,MSSA模块的空间对齐是关键设计因素,破坏提示-几何对应关系会使AbsRel误差增加高达13.8%。

🎯 应用场景

FocusDepth在机器人导航、自动驾驶、增强现实等领域具有广泛的应用前景。例如,在机器人导航中,可以利用FocusDepth精确估计目标物体的深度,帮助机器人进行抓取和操作。在自动驾驶中,可以利用FocusDepth提高对行人、车辆等关键目标的深度感知能力,从而提高驾驶安全性。在增强现实中,可以利用FocusDepth实现更逼真的虚拟物体与真实场景的融合。

📄 摘要(原文)

Monocular depth foundation models generalize well across scenes, yet they are typically optimized with uniform pixel-wise objectives that do not distinguish user-specified or task-relevant target regions from the surrounding context. We therefore introduce Focusable Monocular Depth Estimation (FDE), a region-aware depth estimation task in which, given a specified target region, the model is required to prioritize foreground depth accuracy, preserve sharp boundary transitions, and maintain coherent global scene geometry. To prioritize task-critical region modeling, we propose FocusDepth, a prompt-conditioned monocular relative depth estimation framework that guides depth modeling to focus on target regions via box/text prompts. The core Multi-Scale Spatial-Aligned Fusion (MSSA) in FocusDepth spatially aligns multi-scale features from Segment Anything Model 3 to the Depth Anything family and injects them through scale-specific, gated conditional fusion. This enables dense prompt cue injection without disrupting geometric representations, thereby endowing the depth estimation model with focused perception capability. To study FDE, we establish FDE-Bench, a target-centric monocular relative depth benchmark built from image-target-depth triplets across five datasets, containing 252.9K/72.5K train/val triplets and 972 categories spanning real-world and embodied simulation environments. On FDE-Bench, FocusDepth consistently improves over globally fine-tuned DA2/DA3 baselines under both box and text prompts, with the largest gains appearing in target boundary and foreground regions while preserving global scene geometry. Ablations show that MSSA's spatial alignment is the key design factor, as disrupting prompt-geometry correspondence increases AbsRel by up to 13.8%.