Distilling Monocular Foundation Model for Fine-grained Depth Completion
作者: Yingping Liang, Yutao Hu, Wenqi Shao, Ying Fu
分类: cs.CV
发布日期: 2025-03-21
🔗 代码/项目: GITHUB
💡 一句话要点
提出双阶段知识蒸馏框架,利用单目基础模型提升细粒度深度补全性能
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 深度补全 知识蒸馏 单目深度估计 激光雷达 自动驾驶
📋 核心要点
- 现有深度补全方法依赖稀疏激光雷达数据,缺乏稠密监督,难以学习精细几何特征。
- 提出双阶段知识蒸馏框架,利用单目基础模型提供稠密监督,解决深度补全问题。
- 实验表明,该方法在KITTI数据集上取得SOTA结果,验证了框架的有效性。
📝 摘要(中文)
深度补全旨在从稀疏激光雷达输入预测稠密深度图。然而,来自传感器的稀疏深度标注限制了稠密监督的可用性,而稠密监督对于学习详细的几何特征至关重要。本文提出了一种双阶段知识蒸馏框架,该框架利用强大的单目基础模型为深度补全提供稠密监督。在第一阶段,我们引入了一种预训练策略,该策略从自然图像生成多样化的训练数据,从而将几何知识提炼到深度补全中。具体来说,我们通过利用单目深度和网格重建来模拟激光雷达扫描,从而创建无需真实深度数据的训练数据。此外,单目深度估计在真实场景中存在固有的尺度模糊性。为了解决这个问题,在第二阶段,我们采用尺度和位移不变损失(SSI Loss)来学习在真实世界数据集上进行微调时的真实尺度。我们的双阶段蒸馏框架使深度补全模型能够利用单目基础模型的优势。实验结果表明,使用我们的双阶段蒸馏框架训练的模型实现了最先进的性能,在KITTI基准测试中排名第一。
🔬 方法详解
问题定义:深度补全任务旨在从稀疏的激光雷达点云数据中恢复出稠密的深度图。现有的方法受限于激光雷达数据的稀疏性,难以获得足够的稠密监督信号,导致模型无法学习到精细的几何结构信息,影响深度补全的精度和细节表现。
核心思路:论文的核心思路是利用单目深度估计的先验知识,通过知识蒸馏的方式,将单目深度估计模型中蕴含的几何信息迁移到深度补全模型中。这样可以有效地缓解深度补全任务中稠密监督信号不足的问题,提升模型对精细几何结构的感知能力。
技术框架:该方法采用双阶段的知识蒸馏框架。第一阶段,利用单目深度估计模型和网格重建技术,从自然图像中生成模拟的激光雷达数据,并使用这些数据预训练深度补全模型。第二阶段,在真实的激光雷达数据集上,使用尺度和位移不变损失(SSI Loss)微调模型,以学习真实场景中的尺度信息。
关键创新:该方法最重要的创新点在于利用单目基础模型进行知识蒸馏,为深度补全任务提供稠密监督信号。与传统的深度补全方法相比,该方法无需额外的真实稠密深度数据,而是通过单目深度估计模型生成伪标签,从而降低了数据标注的成本。
关键设计:在第一阶段,使用单目深度估计和网格重建技术生成模拟激光雷达数据,增加了训练数据的多样性。在第二阶段,使用SSI Loss来解决单目深度估计的尺度模糊问题,使得模型能够学习到真实场景中的尺度信息。具体的网络结构和参数设置在论文中进行了详细描述(未知)。
🖼️ 关键图片
📊 实验亮点
该方法在KITTI深度补全基准测试中取得了第一名的成绩,超过了现有的SOTA方法。实验结果表明,该方法能够有效地利用单目基础模型的知识,提升深度补全的精度和细节表现。具体的性能提升数据在论文中进行了详细的展示(未知)。
🎯 应用场景
该研究成果可应用于自动驾驶、机器人导航、三维重建等领域。在自动驾驶中,精确的深度信息对于环境感知和路径规划至关重要。该方法可以提高深度补全的精度,从而提升自动驾驶系统的安全性。在机器人导航中,稠密的深度图可以帮助机器人更好地理解周围环境,实现自主导航。在三维重建中,该方法可以用于生成高质量的三维模型。
📄 摘要(原文)
Depth completion involves predicting dense depth maps from sparse LiDAR inputs. However, sparse depth annotations from sensors limit the availability of dense supervision, which is necessary for learning detailed geometric features. In this paper, we propose a two-stage knowledge distillation framework that leverages powerful monocular foundation models to provide dense supervision for depth completion. In the first stage, we introduce a pre-training strategy that generates diverse training data from natural images, which distills geometric knowledge to depth completion. Specifically, we simulate LiDAR scans by utilizing monocular depth and mesh reconstruction, thereby creating training data without requiring ground-truth depth. Besides, monocular depth estimation suffers from inherent scale ambiguity in real-world settings. To address this, in the second stage, we employ a scale- and shift-invariant loss (SSI Loss) to learn real-world scales when fine-tuning on real-world datasets. Our two-stage distillation framework enables depth completion models to harness the strengths of monocular foundation models. Experimental results demonstrate that models trained with our two-stage distillation framework achieve state-of-the-art performance, ranking \textbf{first place} on the KITTI benchmark. Code is available at https://github.com/Sharpiless/DMD3C