Cross-Camera Distracted Driver Classification through Feature Disentanglement and Contrastive Learning
作者: Simone Bianco, Luigi Celona, Paolo Napoletano
分类: cs.CV, cs.AI, cs.CY
发布日期: 2024-11-20 (更新: 2025-06-21)
💡 一句话要点
提出DBMNet,通过特征解耦和对比学习实现跨摄像头分心驾驶员分类。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 分心驾驶检测 跨摄像头 特征解耦 对比学习 驾驶员监控系统 泛化能力 轻量级模型
📋 核心要点
- 现有驾驶员分心检测模型在跨摄像头场景下泛化能力不足,导致实际应用中性能下降。
- DBMNet通过特征解耦去除摄像头视角信息,并利用对比学习增强驾驶行为特征的表达能力。
- 实验表明,DBMNet在跨摄像头和跨数据集场景下均优于现有方法,Top-1准确率提升7%。
📝 摘要(中文)
分心驾驶员分类对于确保驾驶安全至关重要。以往研究表明,神经网络在自动预测驾驶员分心、疲劳和潜在危险方面表现出色。然而,当模型应用于与训练数据不同条件下采集的样本时,其准确性会显著降低。本文提出了一种鲁棒的模型,旨在抵抗车辆内摄像头位置变化的影响。我们的驾驶员行为监控网络(DBMNet)依赖于轻量级骨干网络,并集成了解耦模块,以从特征中去除摄像头视角信息,同时结合对比学习来增强各种驾驶员行为的编码。在100-Driver数据集的白天和夜间子集上进行的留一摄像头实验验证了该方法的有效性。在AUCDD-V1、EZZ2021和SFD三个基准数据集上进行的跨数据集和跨摄像头实验表明,该方法具有卓越的泛化能力。总体而言,DBMNet相比现有方法,Top-1准确率提高了7%。此外,DBMNet的量化版本以及所有考虑的方法都已部署在Coral Dev Board上。在这种部署场景中,DBMNet优于其他方法,在保持紧凑模型尺寸、低内存占用、快速推理时间和最小功耗的同时,实现了最低的平均误差。
🔬 方法详解
问题定义:论文旨在解决驾驶员分心检测模型在不同摄像头视角下的泛化性问题。现有方法在训练数据和测试数据摄像头视角不一致时,性能会显著下降,限制了模型的实际应用。
核心思路:核心思路是通过特征解耦,将与摄像头视角相关的特征信息从驾驶员行为特征中分离出来,从而使模型能够学习到与摄像头无关的、更具泛化性的驾驶员行为表示。同时,利用对比学习,增强不同驾驶行为之间的区分度,提高分类准确率。
技术框架:DBMNet包含一个轻量级骨干网络用于提取特征,一个解耦模块用于去除摄像头视角信息,以及一个对比学习模块用于增强驾驶行为特征的表达。整体流程是:首先,使用骨干网络提取输入图像的特征;然后,通过解耦模块将特征分解为与摄像头视角相关的部分和与驾驶行为相关的部分;最后,使用对比学习损失函数训练模型,使相同驾驶行为的特征更接近,不同驾驶行为的特征更远离。
关键创新:关键创新在于将特征解耦和对比学习相结合,用于解决跨摄像头分心驾驶员分类问题。特征解耦能够有效去除摄像头视角带来的干扰,对比学习能够增强驾驶行为特征的区分度,从而提高模型的泛化能力。与现有方法相比,DBMNet能够更好地适应不同摄像头视角下的驾驶员行为检测。
关键设计:解耦模块的具体实现方式未知,但其目标是将特征分解为与摄像头视角相关的部分和与驾驶行为相关的部分。对比学习损失函数的具体形式也未知,但其目标是使相同驾驶行为的特征更接近,不同驾驶行为的特征更远离。骨干网络采用轻量级设计,以保证模型的推理速度和资源消耗。
🖼️ 关键图片
📊 实验亮点
DBMNet在跨摄像头和跨数据集的实验中表现出色。在100-Driver数据集上,使用留一摄像头协议验证了其有效性。在AUCDD-V1、EZZ2021和SFD三个基准数据集上,DBMNet相比现有方法,Top-1准确率提高了7%。此外,DBMNet的量化版本在Coral Dev Board上实现了低功耗、低内存占用和快速推理,具有实际部署价值。
🎯 应用场景
该研究成果可应用于智能驾驶辅助系统(ADAS)和驾驶员监控系统(DMS),提高驾驶安全性。通过准确识别驾驶员的分心行为,系统可以及时发出警告或采取干预措施,从而降低交通事故的发生率。此外,该技术还可用于车队管理,帮助企业监控驾驶员的行为,提高运营效率。
📄 摘要(原文)
The classification of distracted drivers is pivotal for ensuring safe driving. Previous studies demonstrated the effectiveness of neural networks in automatically predicting driver distraction, fatigue, and potential hazards. However, recent research has uncovered a significant loss of accuracy in these models when applied to samples acquired under conditions that differ from the training data. In this paper, we introduce a robust model designed to withstand changes in camera position within the vehicle. Our Driver Behavior Monitoring Network (DBMNet) relies on a lightweight backbone and integrates a disentanglement module to discard camera view information from features, coupled with contrastive learning to enhance the encoding of various driver actions. Experiments conducted using a leave-one-camera-out protocol on the daytime and nighttime subsets of the 100-Driver dataset validate the effectiveness of our approach. Cross-dataset and cross-camera experiments conducted on three benchmark datasets, namely AUCDD-V1, EZZ2021 and SFD, demonstrate the superior generalization capabilities of the proposed method. Overall DBMNet achieves an improvement of 7% in Top-1 accuracy compared to existing approaches. Moreover, a quantized version of the DBMNet and all considered methods has been deployed on a Coral Dev Board board. In this deployment scenario, DBMNet outperforms alternatives, achieving the lowest average error while maintaining a compact model size, low memory footprint, fast inference time, and minimal power consumption.