Vanishing Depth: A Depth Adapter with Positional Depth Encoding for Generalized Image Encoders

作者: Paul Koch, Jörg Krüger, Ankit Chowdhury, Oliver Heimann

分类: cs.CV, cs.AI

发布日期: 2025-03-25

备注: Preprint

💡 一句话要点

提出Vanishing Depth，通过位置深度编码增强通用图像编码器，实现度量深度理解。

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 深度估计 自监督学习 位置编码 RGBD 视觉编码器

📋 核心要点

现有视觉编码器缺乏对度量深度的理解，限制了其在精确的视觉引导机器人等领域的应用。
Vanishing Depth通过位置深度编码，将度量深度信息融入预训练RGB编码器的特征嵌入中，实现深度信息的有效利用。
实验表明，该方法在多个RGBD下游任务中取得了显著的性能提升，无需对编码器进行微调即可达到SOTA水平。

📝 摘要（中文）

本文提出了一种名为Vanishing Depth的自监督训练方法，旨在扩展预训练的RGB编码器，使其能够整合并将度量深度信息对齐到其特征嵌入中，从而实现通用的度量深度理解。该方法基于新颖的位置深度编码，能够实现稳定的深度密度和深度分布不变的特征提取。在多个相关的RGBD下游任务中，无需微调编码器即可实现性能提升和SOTA结果。具体而言，在SUN-RGBD分割任务上达到56.05 mIoU，在Void的深度补全任务上达到88.3 RMSE，在NYUv2场景分类任务上达到83.8 Top 1准确率。在6D物体姿态估计中，优于DinoV2、EVA-02和Omnivore等模型，并在多个相关的RGBD下游任务中实现了非微调编码器的SOTA结果。

🔬 方法详解

问题定义：现有先进的视觉编码器在理解度量深度方面存在不足，这限制了它们在需要精确深度信息的视觉任务中的应用，例如机器人导航、场景理解等。这些编码器主要针对RGB图像设计，无法有效地利用深度信息，导致在RGBD数据上的性能受限。

核心思路：Vanishing Depth的核心思路是通过自监督学习的方式，将深度信息融入到预训练的RGB编码器的特征空间中。通过设计一种位置深度编码，使得编码器能够学习到深度信息与图像特征之间的关系，从而提升其对深度信息的理解能力。这种方法避免了直接修改编码器结构，使其能够更好地利用预训练模型的知识。

技术框架：Vanishing Depth主要包含以下几个模块：1) 预训练的RGB编码器（例如DINOv2, EVA-02）；2) 位置深度编码模块，用于将深度信息编码成位置相关的特征；3) 深度适配器，用于将深度编码后的特征与RGB图像特征进行融合；4) 自监督训练模块，通过设计合适的损失函数，使得编码器能够学习到深度信息与图像特征之间的对应关系。整体流程是：首先，将RGB图像和深度图像分别输入到RGB编码器和位置深度编码模块中；然后，通过深度适配器将二者特征融合；最后，通过自监督训练，优化编码器的参数。

关键创新：该方法最重要的技术创新点在于提出了位置深度编码。与传统的深度编码方法不同，位置深度编码将深度信息编码成位置相关的特征，使得编码器能够学习到深度信息在空间上的分布。这种编码方式能够更好地捕捉深度信息与图像特征之间的关系，从而提升编码器对深度信息的理解能力。此外，该方法采用自监督学习的方式，避免了对大量标注数据的依赖。

关键设计：位置深度编码的具体实现方式是：首先，将深度图像进行归一化处理，将其值映射到[0, 1]区间；然后，将归一化后的深度值作为位置编码的输入，生成位置相关的特征向量；最后，将位置特征向量与RGB图像特征进行融合。自监督训练采用对比学习损失，通过最大化相似深度区域的特征相似性，最小化不同深度区域的特征相似性，从而使得编码器能够学习到深度信息与图像特征之间的对应关系。

🖼️ 关键图片

📊 实验亮点

该方法在SUN-RGBD分割任务上取得了56.05 mIoU，在Void的深度补全任务上取得了88.3 RMSE，在NYUv2场景分类任务上取得了83.8 Top 1准确率。在6D物体姿态估计中，优于DinoV2、EVA-02和Omnivore等模型，并在多个相关的RGBD下游任务中实现了非微调编码器的SOTA结果。这些结果表明，Vanishing Depth能够有效地提升视觉编码器对深度信息的理解能力，并在多个RGBD下游任务中取得了显著的性能提升。

🎯 应用场景

该研究成果可广泛应用于机器人导航、自动驾驶、三维重建、场景理解等领域。通过提升视觉编码器对深度信息的理解能力，可以提高机器人在复杂环境中的感知能力和决策能力。例如，在机器人导航中，可以利用深度信息进行障碍物检测和路径规划；在自动驾驶中，可以利用深度信息进行车辆定位和场景理解。该研究的未来影响在于推动视觉智能技术在更多实际场景中的应用。

📄 摘要（原文）

Generalized metric depth understanding is critical for precise vision-guided robotics, which current state-of-the-art (SOTA) vision-encoders do not support. To address this, we propose Vanishing Depth, a self-supervised training approach that extends pretrained RGB encoders to incorporate and align metric depth into their feature embeddings. Based on our novel positional depth encoding, we enable stable depth density and depth distribution invariant feature extraction. We achieve performance improvements and SOTA results across a spectrum of relevant RGBD downstream tasks - without the necessity of finetuning the encoder. Most notably, we achieve 56.05 mIoU on SUN-RGBD segmentation, 88.3 RMSE on Void's depth completion, and 83.8 Top 1 accuracy on NYUv2 scene classification. In 6D-object pose estimation, we outperform our predecessors of DinoV2, EVA-02, and Omnivore and achieve SOTA results for non-finetuned encoders in several related RGBD downstream tasks.

Vanishing Depth: A Depth Adapter with Positional Depth Encoding for Generalized Image Encoders

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理