SCKD: Semi-Supervised Cross-Modality Knowledge Distillation for 4D Radar Object Detection

📄 arXiv: 2412.14571v1 📥 PDF

作者: Ruoyu Xu, Zhiyu Xiang, Chenwei Zhang, Hanzhi Zhong, Xijun Zhao, Ruina Dang, Peng Xu, Tianyu Pu, Eryun Liu

分类: cs.CV, cs.AI, eess.IV

发布日期: 2024-12-19

备注: Accepted by AAAI 2025

🔗 代码/项目: GITHUB


💡 一句话要点

提出SCKD半监督跨模态知识蒸馏方法,提升4D雷达目标检测性能。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 4D雷达 目标检测 知识蒸馏 半监督学习 跨模态学习

📋 核心要点

  1. 现有雷达点云稀疏且噪声大,导致基于雷达的3D目标检测性能远低于预期。
  2. 利用激光雷达-雷达融合教师网络的知识,通过跨模态知识蒸馏提升雷达网络的性能。
  3. 提出的SCKD方法在VoD和ZJUODset数据集上分别实现了10.38%和5.12%的mAP提升。

📝 摘要(中文)

本文提出了一种新颖的半监督跨模态知识蒸馏(SCKD)方法,用于基于4D毫米波雷达的3D目标检测。该方法利用激光雷达-雷达融合的教师网络学习特征,并通过半监督蒸馏来增强雷达检测性能。首先,在教师网络中提出了一个自适应融合模块以提升其性能。然后,设计了两个特征蒸馏模块,以促进跨模态知识转移。最后,提出了一个半监督输出蒸馏,以提高蒸馏框架的有效性和灵活性。实验结果表明,使用相同网络结构,通过SCKD训练的纯雷达学生网络在VoD数据集上将mAP提高了10.38%,优于现有技术水平。在ZJUODset数据集上的实验也表明,当有额外的未标记数据可用时,在中等难度级别上mAP提高了5.12%。

🔬 方法详解

问题定义:现有基于4D雷达的3D目标检测方法受限于雷达点云的稀疏性和噪声,导致检测精度较低。现有方法难以充分利用雷达数据中蕴含的几何和语义信息,尤其是在缺乏大量标注数据的情况下,性能提升面临瓶颈。

核心思路:利用激光雷达和雷达融合的教师网络提取更丰富的特征,通过知识蒸馏将这些特征迁移到纯雷达学生网络中。同时,利用半监督学习方法,从未标注数据中挖掘信息,进一步提升学生网络的性能。核心在于弥补雷达数据本身的缺陷,并充分利用未标注数据。

技术框架:SCKD框架包含一个激光雷达-雷达融合的教师网络和一个纯雷达学生网络。首先,使用自适应融合模块提升教师网络的性能。然后,通过特征蒸馏模块将教师网络学习到的特征迁移到学生网络。最后,利用半监督输出蒸馏,从未标注数据中提取信息,进一步提升学生网络的性能。整体流程是先训练一个高性能的教师网络,然后通过知识蒸馏和半监督学习训练学生网络。

关键创新:SCKD的关键创新在于:1) 提出了自适应融合模块,能够更好地融合激光雷达和雷达数据;2) 设计了特征蒸馏模块,能够有效地将跨模态知识从教师网络迁移到学生网络;3) 提出了半监督输出蒸馏,能够利用未标注数据进一步提升学生网络的性能。与现有方法相比,SCKD能够更有效地利用激光雷达和雷达数据,并充分利用未标注数据。

关键设计:自适应融合模块采用注意力机制,根据输入数据的质量动态调整激光雷达和雷达数据的权重。特征蒸馏模块使用L2损失函数,最小化教师网络和学生网络特征之间的差异。半监督输出蒸馏使用一致性损失函数,鼓励学生网络在标注数据和未标注数据上产生一致的预测结果。具体的网络结构和参数设置根据不同的数据集和任务进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,SCKD方法在VoD数据集上将纯雷达3D目标检测的mAP提升了10.38%,显著优于现有技术水平。在ZJUODset数据集上,当有额外的未标注数据可用时,SCKD方法在中等难度级别上mAP提高了5.12%。这些结果验证了SCKD方法在提升雷达目标检测性能方面的有效性。

🎯 应用场景

该研究成果可应用于自动驾驶、机器人导航、智能交通等领域。通过提升雷达在恶劣天气条件下的目标检测性能,可以提高自动驾驶系统的安全性和可靠性。此外,该方法还可以应用于其他传感器融合场景,例如视觉和红外传感器的融合。

📄 摘要(原文)

3D object detection is one of the fundamental perception tasks for autonomous vehicles. Fulfilling such a task with a 4D millimeter-wave radar is very attractive since the sensor is able to acquire 3D point clouds similar to Lidar while maintaining robust measurements under adverse weather. However, due to the high sparsity and noise associated with the radar point clouds, the performance of the existing methods is still much lower than expected. In this paper, we propose a novel Semi-supervised Cross-modality Knowledge Distillation (SCKD) method for 4D radar-based 3D object detection. It characterizes the capability of learning the feature from a Lidar-radar-fused teacher network with semi-supervised distillation. We first propose an adaptive fusion module in the teacher network to boost its performance. Then, two feature distillation modules are designed to facilitate the cross-modality knowledge transfer. Finally, a semi-supervised output distillation is proposed to increase the effectiveness and flexibility of the distillation framework. With the same network structure, our radar-only student trained by SCKD boosts the mAP by 10.38% over the baseline and outperforms the state-of-the-art works on the VoD dataset. The experiment on ZJUODset also shows 5.12% mAP improvements on the moderate difficulty level over the baseline when extra unlabeled data are available. Code is available at https://github.com/Ruoyu-Xu/SCKD.