Last-Layer-Centric Feature Recombination: Unleashing 3D Geometric Knowledge in DINOv3 for Monocular Depth Estimation
作者: Gongshu Wang, Zhirui Wang, Kan Yang
分类: cs.CV
发布日期: 2026-04-29
备注: 18page, 6 figure, 6 table
💡 一句话要点
提出Last-Layer-Centric Feature Recombination模块,提升DINOv3在单目深度估计中的几何信息利用率。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 单目深度估计 视觉基础模型 DINOv3 特征重组 几何信息
📋 核心要点
- 现有单目深度估计方法通常均匀采样Transformer各层特征,忽略了不同层几何信息分布的差异。
- 论文提出Last-Layer-Centric Feature Recombination (LFR)模块,以最后一层为几何锚点,自适应选择互补中间层特征。
- 实验表明,LFR模块显著提升了单目深度估计的准确性,达到了state-of-the-art的性能。
📝 摘要(中文)
单目深度估计(MDE)是一项基础但本质上是不适定的任务。最近的视觉基础模型(VFMs),特别是基于DINO的transformer,显著提高了密集预测的准确性和泛化能力。先前的工作通常遵循一个统一的范式:以均匀的间隔采样一组固定的中间transformer层来构建多尺度特征。这种常见的做法隐含地假设几何信息在各层之间均匀分布,这可能低估了VFMs中编码的结构化3D线索。在本研究中,我们对DINOv3进行了系统的逐层分析,揭示了3D信息分布不均匀:更深层表现出更强的深度可预测性,并更好地捕捉了样本间的几何变化。受此启发,我们引入了一个Last-Layer-Centric Feature Recombination (LFR)模块来增强几何表达能力。LFR将最后一层作为几何锚点,并根据最小相似度准则自适应地选择互补的中间层。选择的特征通过紧凑的线性适配器与最后一层表示融合。大量的实验表明,LFR模块持续提高了MDE的准确性,并实现了最先进的性能。我们的分析揭示了几何知识如何在VFMs中组织,并为释放其在密集3D任务中的潜力提供了一种有效的策略。
🔬 方法详解
问题定义:单目深度估计旨在从单张图像中预测场景的深度信息,这是一个具有挑战性的病态问题。现有方法,特别是基于视觉基础模型的方法,通常采用均匀采样Transformer中间层特征的方式构建多尺度特征表示。这种方式忽略了Transformer不同层所编码的几何信息的差异性,可能导致对3D结构信息的利用不足。
核心思路:论文的核心思路是观察到DINOv3等视觉基础模型中,更深层包含更强的深度可预测性和样本间几何变化信息。因此,论文提出以最后一层为中心,自适应地选择并融合其他层的特征,从而更有效地利用模型中蕴含的几何知识。这种非均匀的特征融合方式能够更好地表达场景的3D结构。
技术框架:LFR模块主要包含以下几个阶段:1) 特征提取:从DINOv3中提取不同层的特征表示。2) 相似度计算:计算中间层特征与最后一层特征的相似度。3) 特征选择:基于最小相似度准则,选择与最后一层特征差异最大的中间层特征。4) 特征融合:使用线性适配器将选择的中间层特征与最后一层特征进行融合,得到最终的特征表示。
关键创新:论文的关键创新在于提出了Last-Layer-Centric Feature Recombination (LFR)模块,该模块能够自适应地选择并融合Transformer不同层的特征,从而更有效地利用模型中蕴含的几何知识。与现有方法中均匀采样特征的方式不同,LFR模块能够根据不同层特征的相似度进行选择,从而更好地表达场景的3D结构。
关键设计:LFR模块的关键设计包括:1) 最小相似度准则:用于选择与最后一层特征差异最大的中间层特征,保证融合的特征具有互补性。2) 线性适配器:用于将选择的中间层特征与最后一层特征进行融合,避免引入过多的参数。3) 损失函数:采用标准的深度估计损失函数,例如L1损失或BerHu损失。
🖼️ 关键图片
📊 实验亮点
实验结果表明,LFR模块在多个单目深度估计数据集上取得了state-of-the-art的性能。例如,在KITTI数据集上,LFR模块相比于基线方法,显著降低了深度估计的误差。此外,实验还验证了LFR模块的有效性,证明了其能够更好地利用DINOv3中蕴含的几何知识。
🎯 应用场景
该研究成果可应用于自动驾驶、机器人导航、增强现实等领域。通过提升单目深度估计的准确性,可以帮助自动驾驶系统更好地理解周围环境,提高导航的安全性;可以帮助机器人更好地感知周围环境,实现更智能的交互;可以为增强现实应用提供更准确的深度信息,提升用户体验。
📄 摘要(原文)
Monocular depth estimation (MDE) is a fundamental yet inherently ill-posed task. Recent vision foundation models (VFMs), particularly DINO-based transformers, have significantly improved accuracy and generalization for dense prediction. Prior works generally follow a unified paradigm: sampling a fixed set of intermediate transformer layers at uniform intervals to build multi-scale features. This common practice implicitly assumes that geometric information is uniformly distributed across layers, which may underutilize the structural 3D cues encoded in VFMs. In this study, we present a systematic layer-wise analysis of DINOv3, revealing that 3D information is distributed non-uniformly: deeper layers exhibit stronger depth predictability and better capture inter-sample geometric variation. Motivated by this, we introduce a Last-Layer-Centric Feature Recombination (LFR) module to enhance geometric expressiveness. LFR treats the final layer as a geometric anchor and adaptively selects complementary intermediate layers according to a minimal-similarity criterion. Selected features are fused with the last-layer representation via compact linear adapters.Extensive experiments show that LFR module consistently improves MDE accuracy and achieves state-of-the-art performance. Our analysis sheds light on how geometric knowledge is organized within VFMs and offers an efficient strategy for unlocking their potential in dense 3D tasks.