Last-Layer-Centric Feature Recombination: Unleashing 3D Geometric Knowledge in DINOv3 for Monocular Depth Estimation

作者: Gongshu Wang, Zhirui Wang, Kan Yang

分类: cs.CV

发布日期: 2026-04-29

备注: 18page, 6 figure, 6 table

💡 一句话要点

提出Last-Layer-Centric Feature Recombination模块，提升DINOv3在单目深度估计中的几何信息利用率。

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 单目深度估计 视觉基础模型 DINOv3 特征重组 几何信息

📋 核心要点

现有单目深度估计方法通常均匀采样Transformer各层特征，忽略了不同层几何信息分布的差异。
论文提出Last-Layer-Centric Feature Recombination (LFR)模块，以最后一层为几何锚点，自适应选择互补中间层特征。
实验表明，LFR模块显著提升了单目深度估计的准确性，达到了state-of-the-art的性能。

📝 摘要（中文）

单目深度估计(MDE)是一项基础但本质上是不适定的任务。最近的视觉基础模型(VFMs)，特别是基于DINO的transformer，显著提高了密集预测的准确性和泛化能力。先前的工作通常遵循一个统一的范式：以均匀的间隔采样一组固定的中间transformer层来构建多尺度特征。这种常见的做法隐含地假设几何信息在各层之间均匀分布，这可能低估了VFMs中编码的结构化3D线索。在本研究中，我们对DINOv3进行了系统的逐层分析，揭示了3D信息分布不均匀：更深层表现出更强的深度可预测性，并更好地捕捉了样本间的几何变化。受此启发，我们引入了一个Last-Layer-Centric Feature Recombination (LFR)模块来增强几何表达能力。LFR将最后一层作为几何锚点，并根据最小相似度准则自适应地选择互补的中间层。选择的特征通过紧凑的线性适配器与最后一层表示融合。大量的实验表明，LFR模块持续提高了MDE的准确性，并实现了最先进的性能。我们的分析揭示了几何知识如何在VFMs中组织，并为释放其在密集3D任务中的潜力提供了一种有效的策略。

🔬 方法详解

问题定义：单目深度估计旨在从单张图像中预测场景的深度信息，这是一个具有挑战性的病态问题。现有方法，特别是基于视觉基础模型的方法，通常采用均匀采样Transformer中间层特征的方式构建多尺度特征表示。这种方式忽略了Transformer不同层所编码的几何信息的差异性，可能导致对3D结构信息的利用不足。

核心思路：论文的核心思路是观察到DINOv3等视觉基础模型中，更深层包含更强的深度可预测性和样本间几何变化信息。因此，论文提出以最后一层为中心，自适应地选择并融合其他层的特征，从而更有效地利用模型中蕴含的几何知识。这种非均匀的特征融合方式能够更好地表达场景的3D结构。

技术框架：LFR模块主要包含以下几个阶段：1) 特征提取：从DINOv3中提取不同层的特征表示。2) 相似度计算：计算中间层特征与最后一层特征的相似度。3) 特征选择：基于最小相似度准则，选择与最后一层特征差异最大的中间层特征。4) 特征融合：使用线性适配器将选择的中间层特征与最后一层特征进行融合，得到最终的特征表示。

关键创新：论文的关键创新在于提出了Last-Layer-Centric Feature Recombination (LFR)模块，该模块能够自适应地选择并融合Transformer不同层的特征，从而更有效地利用模型中蕴含的几何知识。与现有方法中均匀采样特征的方式不同，LFR模块能够根据不同层特征的相似度进行选择，从而更好地表达场景的3D结构。

关键设计：LFR模块的关键设计包括：1) 最小相似度准则：用于选择与最后一层特征差异最大的中间层特征，保证融合的特征具有互补性。2) 线性适配器：用于将选择的中间层特征与最后一层特征进行融合，避免引入过多的参数。3) 损失函数：采用标准的深度估计损失函数，例如L1损失或BerHu损失。

🖼️ 关键图片

📊 实验亮点

实验结果表明，LFR模块在多个单目深度估计数据集上取得了state-of-the-art的性能。例如，在KITTI数据集上，LFR模块相比于基线方法，显著降低了深度估计的误差。此外，实验还验证了LFR模块的有效性，证明了其能够更好地利用DINOv3中蕴含的几何知识。

🎯 应用场景

该研究成果可应用于自动驾驶、机器人导航、增强现实等领域。通过提升单目深度估计的准确性，可以帮助自动驾驶系统更好地理解周围环境，提高导航的安全性；可以帮助机器人更好地感知周围环境，实现更智能的交互；可以为增强现实应用提供更准确的深度信息，提升用户体验。

📄 摘要（原文）

Monocular depth estimation (MDE) is a fundamental yet inherently ill-posed task. Recent vision foundation models (VFMs), particularly DINO-based transformers, have significantly improved accuracy and generalization for dense prediction. Prior works generally follow a unified paradigm: sampling a fixed set of intermediate transformer layers at uniform intervals to build multi-scale features. This common practice implicitly assumes that geometric information is uniformly distributed across layers, which may underutilize the structural 3D cues encoded in VFMs. In this study, we present a systematic layer-wise analysis of DINOv3, revealing that 3D information is distributed non-uniformly: deeper layers exhibit stronger depth predictability and better capture inter-sample geometric variation. Motivated by this, we introduce a Last-Layer-Centric Feature Recombination (LFR) module to enhance geometric expressiveness. LFR treats the final layer as a geometric anchor and adaptively selects complementary intermediate layers according to a minimal-similarity criterion. Selected features are fused with the last-layer representation via compact linear adapters.Extensive experiments show that LFR module consistently improves MDE accuracy and achieves state-of-the-art performance. Our analysis sheds light on how geometric knowledge is organized within VFMs and offers an efficient strategy for unlocking their potential in dense 3D tasks.

Last-Layer-Centric Feature Recombination: Unleashing 3D Geometric Knowledge in DINOv3 for Monocular Depth Estimation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理