Edge AI for Automotive Vulnerable Road User Safety: Deployable Detection via Knowledge Distillation
作者: Akshay Karjol, Darrin M. Hanna
分类: cs.CV, cs.LG, cs.RO, eess.IV
发布日期: 2026-04-29
备注: 6 pages, 3 figures
💡 一句话要点
提出基于知识蒸馏的边缘AI方案,提升自动驾驶弱势道路使用者检测的INT8量化精度。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 边缘AI 知识蒸馏 目标检测 自动驾驶 弱势道路使用者 INT8量化 模型压缩
📋 核心要点
- 现有方法难以兼顾VRU检测精度和边缘设备计算约束,大型模型量化后性能下降,小型模型精度不足。
- 采用知识蒸馏框架,训练小型YOLOv8-S学生模型模仿大型YOLOv8-L教师模型,实现模型压缩和精度保持。
- 实验表明,知识蒸馏后的学生模型在INT8量化下精度优于直接训练的模型,且误报率显著降低。
📝 摘要(中文)
本文提出了一种知识蒸馏(KD)框架,用于在边缘硬件上部署精确的弱势道路使用者(VRU)目标检测,旨在平衡模型容量和计算约束。大型模型精度高,但在边缘部署所需的INT8量化下性能下降;小型模型则牺牲了检测性能。该框架训练一个紧凑的YOLOv8-S学生模型(1120万参数)模仿YOLOv8-L教师模型(4370万参数),实现了3.9倍的压缩,同时保持了量化鲁棒性。在完整规模的BDD100K数据集(7万张训练图像)上,使用训练后量化到INT8进行评估。教师模型在INT8量化下性能急剧下降(-23% mAP),而KD学生模型保持了精度(-5.6% mAP)。分析表明,KD传递的是精度校准而非原始检测能力:INT8量化下,KD学生模型的精度为0.748,而直接训练的模型的精度为0.653,在相同召回率下提高了14.5%,与崩溃的教师模型相比,误报减少了44%。在INT8量化下,KD学生模型的精度(0.748)超过了教师模型的FP32精度(0.718),且模型小了3.9倍。这些发现确立了知识蒸馏作为在边缘硬件上部署精确、安全关键的VRU检测的必要条件。
🔬 方法详解
问题定义:论文旨在解决在计算资源受限的边缘设备上,如何部署高精度、鲁棒的弱势道路使用者(VRU)检测模型的问题。现有的大型模型虽然精度高,但在边缘设备上进行INT8量化后,性能会显著下降。而小型模型虽然可以满足计算需求,但检测精度往往不足,无法满足安全关键应用的需求。
核心思路:论文的核心思路是利用知识蒸馏(Knowledge Distillation, KD)技术,将大型教师模型的知识迁移到小型学生模型中。通过让学生模型学习教师模型的输出,使其在保持较小模型体积的同时,尽可能地逼近教师模型的性能,从而在边缘设备上实现高精度的VRU检测。
技术框架:整体框架包含两个主要部分:教师模型和学生模型。教师模型是一个大型的YOLOv8-L模型,负责生成高质量的检测结果。学生模型是一个小型化的YOLOv8-S模型,通过学习教师模型的输出进行训练。训练过程采用知识蒸馏损失函数,鼓励学生模型的输出与教师模型的输出尽可能一致。最终,将训练好的学生模型部署到边缘设备上进行VRU检测。
关键创新:论文的关键创新在于将知识蒸馏技术应用于边缘AI的VRU检测任务,并证明了知识蒸馏可以有效地提高小型模型在INT8量化下的精度和鲁棒性。此外,论文还发现知识蒸馏主要传递的是精度校准信息,而非原始的检测能力,这为知识蒸馏的应用提供了新的视角。
关键设计:论文采用了YOLOv8-L作为教师模型,YOLOv8-S作为学生模型。训练过程中,使用了标准的知识蒸馏损失函数,包括软标签损失和特征匹配损失。为了适应边缘设备的计算能力,对学生模型进行了INT8量化。实验中,使用了BDD100K数据集进行训练和评估,并采用了mAP作为评价指标。
🖼️ 关键图片
📊 实验亮点
实验结果表明,经过知识蒸馏的学生模型(YOLOv8-S)在INT8量化下,精度损失仅为-5.6% mAP,远低于教师模型(YOLOv8-L)的-23% mAP。更重要的是,学生模型在INT8量化下的精度(0.748)甚至超过了教师模型在FP32下的精度(0.718),同时模型大小压缩了3.9倍。与直接训练的INT8模型相比,知识蒸馏后的学生模型精度提高了14.5%,误报率降低了44%。
🎯 应用场景
该研究成果可广泛应用于自动驾驶、高级驾驶辅助系统(ADAS)、智能交通等领域。通过在车辆边缘设备上部署高精度、低功耗的VRU检测模型,可以有效提高道路安全性,减少交通事故,尤其是在行人、骑自行车者等弱势道路使用者的保护方面具有重要意义。未来,该技术还可扩展到其他边缘AI应用场景,如智能监控、机器人等。
📄 摘要(原文)
Deploying accurate object detection for Vulnerable Road User (VRU) safety on edge hardware requires balancing model capacity against computational constraints. Large models achieve high accuracy but fail under INT8 quantization required for edge deployment, while small models sacrifice detection performance. This paper presents a knowledge distillation (KD) framework that trains a compact YOLOv8-S student (11.2M parameters) to mimic a YOLOv8-L teacher (43.7M parameters), achieving 3.9x compression while preserving quantization robustness. We evaluate on full-scale BDD100K (70K training images) with Post-Training Quantization to INT8. The teacher suffers catastrophic degradation under INT8 (-23% mAP), while the KD student retains accuracy (-5.6% mAP). Analysis reveals that KD transfers precision calibration rather than raw detection capacity: the KD student achieves 0.748 precision versus 0.653 for direct training at INT8, a 14.5% gain at equivalent recall, reducing false alarms by 44% versus the collapsed teacher. At INT8, the KD student exceeds the teacher's FP32 precision (0.748 vs. 0.718) in a model 3.9x smaller. These findings establish knowledge distillation as a requirement for deploying accurate, safety-critical VRU detection on edge hardware.