LiRCDepth: Lightweight Radar-Camera Depth Estimation via Knowledge Distillation and Uncertainty Guidance
作者: Huawei Sun, Nastassia Vysotskaya, Tobias Sukianto, Hao Feng, Julius Ott, Xiangyuan Peng, Lorenzo Servadei, Robert Wille
分类: cs.CV, eess.IV
发布日期: 2024-12-20 (更新: 2024-12-27)
备注: Accepted by ICASSP 2025
🔗 代码/项目: GITHUB
💡 一句话要点
提出LiRCDepth:一种轻量级雷达相机深度估计模型,通过知识蒸馏和不确定性引导提升性能。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 雷达相机融合 深度估计 知识蒸馏 轻量级模型 不确定性建模
📋 核心要点
- 现有雷达相机融合深度估计算法通常只关注性能提升,忽略了计算效率,限制了其在资源受限场景的应用。
- LiRCDepth通过知识蒸馏,将复杂教师模型的知识迁移到轻量级学生模型,在保证性能的同时降低计算成本。
- 实验表明,LiRCDepth在nuScenes数据集上相比未进行知识蒸馏的模型,MAE指标提升了6.6%,验证了方法的有效性。
📝 摘要(中文)
本文提出了一种轻量级的雷达相机深度估计模型LiRCDepth,旨在解决现有算法计算效率不足的问题。该模型采用知识蒸馏方法,将复杂教师模型中的关键信息迁移到轻量级学生模型中,从而提升训练效果。具体而言,知识迁移在三个关键领域进行:通过像素级和配对蒸馏迁移低级和高级特征;引入不确定性感知的深度间蒸馏损失来优化解码过程中的中间深度图。实验结果表明,与未进行蒸馏训练的模型相比,该轻量级模型在nuScenes数据集上的MAE指标提升了6.6%。代码已开源。
🔬 方法详解
问题定义:现有雷达相机融合的深度估计方法通常侧重于提高精度,但忽略了计算效率,这限制了它们在计算资源有限的平台上的部署。因此,如何在保证深度估计精度的前提下,降低模型的计算复杂度,是本文要解决的核心问题。
核心思路:本文的核心思路是利用知识蒸馏技术,训练一个轻量级的学生模型,使其能够学习到复杂教师模型的知识,从而在保持较高精度的同时,显著降低计算成本。通过将教师模型的特征表示和中间深度图信息迁移到学生模型,可以有效地提升学生模型的性能。
技术框架:LiRCDepth的整体框架包含一个轻量级的学生模型和一个复杂的教师模型。训练过程中,首先训练一个高性能的教师模型。然后,利用教师模型指导学生模型的训练,通过多种知识蒸馏损失函数,将教师模型的特征表示和中间深度图信息迁移到学生模型。学生模型采用轻量化的网络结构,以降低计算复杂度。
关键创新:本文的关键创新在于提出了一个不确定性感知的深度间蒸馏损失。该损失函数利用教师模型预测的深度图的不确定性信息,指导学生模型学习更准确的深度估计。具体来说,对于教师模型预测不确定性较高的区域,降低蒸馏损失的权重,从而避免学生模型学习到错误的知识。
关键设计:在知识蒸馏过程中,采用了像素级和配对蒸馏来迁移低级和高级特征。像素级蒸馏直接比较教师和学生模型对应像素的特征向量,而配对蒸馏则关注特征之间的关系。此外,不确定性感知的深度间蒸馏损失基于L1损失,并根据教师模型预测的不确定性进行加权。学生模型采用轻量化的编码器-解码器结构,例如MobileNetV2作为编码器。
🖼️ 关键图片
📊 实验亮点
LiRCDepth在nuScenes数据集上进行了评估,实验结果表明,与未进行知识蒸馏的模型相比,LiRCDepth的MAE指标降低了6.6%。这表明知识蒸馏策略能够有效地提升轻量级模型的性能。此外,消融实验验证了不确定性感知深度间蒸馏损失的有效性。
🎯 应用场景
LiRCDepth适用于自动驾驶、机器人导航等需要实时深度感知的场景。其轻量化的设计使其能够在嵌入式设备或移动平台上部署,为资源受限的应用提供高精度的深度信息。该研究成果有助于推动雷达相机融合技术在实际应用中的普及。
📄 摘要(原文)
Recently, radar-camera fusion algorithms have gained significant attention as radar sensors provide geometric information that complements the limitations of cameras. However, most existing radar-camera depth estimation algorithms focus solely on improving performance, often neglecting computational efficiency. To address this gap, we propose LiRCDepth, a lightweight radar-camera depth estimation model. We incorporate knowledge distillation to enhance the training process, transferring critical information from a complex teacher model to our lightweight student model in three key domains. Firstly, low-level and high-level features are transferred by incorporating pixel-wise and pair-wise distillation. Additionally, we introduce an uncertainty-aware inter-depth distillation loss to refine intermediate depth maps during decoding. Leveraging our proposed knowledge distillation scheme, the lightweight model achieves a 6.6% improvement in MAE on the nuScenes dataset compared to the model trained without distillation. Code: https://github.com/harborsarah/LiRCDepth