ALERT Open Dataset and Input-Size-Agnostic Vision Transformer for Driver Activity Recognition using IR-UWB
作者: Jeongjun Park, Sunwook Hwang, Hyeonho Noh, Jin Mo Yang, Hyun Jong Yang, Saewoong Bahk
分类: cs.CV, cs.AI, cs.LG
发布日期: 2025-12-13
💡 一句话要点
提出ISA-ViT和ALERT数据集,用于解决基于IR-UWB雷达的驾驶员行为识别问题
🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation)
关键词: 驾驶员行为识别 IR-UWB雷达 Vision Transformer 输入尺寸无关 域融合
📋 核心要点
- 现有基于IR-UWB雷达的驾驶员行为识别方法缺乏大规模真实数据集,且固定输入尺寸的ViT难以适应非标准尺寸的UWB雷达数据。
- 论文提出输入尺寸无关的Vision Transformer (ISA-ViT),通过调整patch配置和利用预训练的位置嵌入向量,使ViT适应不同尺寸的UWB雷达数据。
- 实验结果表明,ISA-ViT在UWB雷达驾驶员行为识别任务上,相比现有ViT方法,准确率提升了22.68%。
📝 摘要(中文)
分心驾驶是全球致命车祸的重要原因。为了解决这个问题,研究人员正在使用基于脉冲无线电超宽带(IR-UWB)雷达的驾驶员行为识别(DAR)技术,该技术具有抗干扰、低功耗和保护隐私等优点。然而,两个挑战限制了它的应用:缺乏涵盖各种分心驾驶行为的大规模真实UWB数据集,以及难以将固定输入尺寸的Vision Transformers (ViTs)应用于具有非标准尺寸的UWB雷达数据。本研究旨在解决这两个挑战。我们提出了ALERT数据集,其中包含在真实驾驶条件下收集的七种分心驾驶活动的10220个雷达样本。我们还提出了一种输入尺寸无关的Vision Transformer (ISA-ViT),这是一种专为基于雷达的DAR设计的框架。所提出的方法调整UWB数据的大小以满足ViT的输入要求,同时保留雷达特定的信息,如多普勒频移和相位特性。通过调整patch配置和利用预训练的位置嵌入向量(PEV),ISA-ViT克服了朴素调整大小方法的局限性。此外,一种域融合策略结合了距离域和频率域特征,以进一步提高分类性能。综合实验表明,ISA-ViT在基于UWB的DAR上,比现有的基于ViT的方法提高了22.68%的准确率。通过公开发布ALERT数据集并详细介绍我们的输入尺寸无关策略,这项工作促进了更鲁棒和可扩展的分心驾驶检测系统的开发,以用于实际部署。
🔬 方法详解
问题定义:论文旨在解决基于IR-UWB雷达的驾驶员行为识别问题。现有方法面临两个主要痛点:一是缺乏大规模、真实场景的UWB雷达数据集;二是传统的Vision Transformer (ViT) 需要固定尺寸的输入,难以直接应用于具有非标准尺寸的UWB雷达数据,简单的resize操作会损失雷达信号中的重要信息(如多普勒频移和相位特性)。
核心思路:论文的核心思路是设计一种输入尺寸无关的Vision Transformer (ISA-ViT),使其能够处理不同尺寸的UWB雷达数据,同时保留雷达信号的关键特征。通过调整patch配置和利用预训练的位置嵌入向量,ISA-ViT克服了传统ViT对输入尺寸的限制,并避免了简单resize操作带来的信息损失。此外,论文还提出了一种域融合策略,结合距离域和频率域的特征,以进一步提高分类性能。
技术框架:ISA-ViT的整体框架包括以下几个主要阶段:1) 数据预处理:对原始UWB雷达数据进行预处理,包括降噪、滤波等操作。2) 输入尺寸调整:将UWB雷达数据调整为适合ViT输入的尺寸,但并非简单的resize,而是通过调整patch的大小和数量来实现。3) 特征提取:使用ViT提取UWB雷达数据的特征。4) 域融合:将距离域和频率域的特征进行融合,以获得更全面的特征表示。5) 分类:使用分类器对融合后的特征进行分类,识别驾驶员的行为。
关键创新:ISA-ViT最重要的技术创新点在于其输入尺寸无关性。传统的ViT需要固定尺寸的输入,而ISA-ViT通过调整patch配置和利用预训练的位置嵌入向量,使其能够处理不同尺寸的输入。这使得ISA-ViT能够更好地适应UWB雷达数据的特点,并避免了简单resize操作带来的信息损失。此外,域融合策略也是一个重要的创新点,它能够结合距离域和频率域的特征,从而提高分类性能。
关键设计:ISA-ViT的关键设计包括:1) Patch配置:根据UWB雷达数据的尺寸,动态调整patch的大小和数量,以适应ViT的输入要求。2) 预训练的位置嵌入向量(PEV):利用预训练的PEV来初始化ViT的位置嵌入,从而提高模型的性能。3) 域融合策略:将距离域和频率域的特征进行加权融合,权重可以通过学习得到。4) 损失函数:使用交叉熵损失函数来训练模型。
🖼️ 关键图片
📊 实验亮点
实验结果表明,ISA-ViT在ALERT数据集上取得了显著的性能提升,相比于现有的基于ViT的方法,准确率提高了22.68%。这一结果验证了ISA-ViT在处理非标准尺寸UWB雷达数据方面的优势,以及域融合策略的有效性。ALERT数据集的发布也为该领域的研究提供了宝贵的数据资源。
🎯 应用场景
该研究成果可应用于智能汽车、高级驾驶辅助系统(ADAS)等领域,通过实时监测驾驶员的行为状态,及时发出预警,从而降低因分心驾驶导致交通事故的风险。该技术具有保护隐私的优势,未来有望在商用车辆、公共交通等领域得到广泛应用,提升交通安全水平。
📄 摘要(原文)
Distracted driving contributes to fatal crashes worldwide. To address this, researchers are using driver activity recognition (DAR) with impulse radio ultra-wideband (IR-UWB) radar, which offers advantages such as interference resistance, low power consumption, and privacy preservation. However, two challenges limit its adoption: the lack of large-scale real-world UWB datasets covering diverse distracted driving behaviors, and the difficulty of adapting fixed-input Vision Transformers (ViTs) to UWB radar data with non-standard dimensions. This work addresses both challenges. We present the ALERT dataset, which contains 10,220 radar samples of seven distracted driving activities collected in real driving conditions. We also propose the input-size-agnostic Vision Transformer (ISA-ViT), a framework designed for radar-based DAR. The proposed method resizes UWB data to meet ViT input requirements while preserving radar-specific information such as Doppler shifts and phase characteristics. By adjusting patch configurations and leveraging pre-trained positional embedding vectors (PEVs), ISA-ViT overcomes the limitations of naive resizing approaches. In addition, a domain fusion strategy combines range- and frequency-domain features to further improve classification performance. Comprehensive experiments demonstrate that ISA-ViT achieves a 22.68% accuracy improvement over an existing ViT-based approach for UWB-based DAR. By publicly releasing the ALERT dataset and detailing our input-size-agnostic strategy, this work facilitates the development of more robust and scalable distracted driving detection systems for real-world deployment.