UL-DD: A Multimodal Drowsiness Dataset Using Video, Biometric Signals, and Behavioral Data

📄 arXiv: 2507.13403v1 📥 PDF

作者: Morteza Bodaghi, Majid Hosseini, Raju Gottumukkala, Ravi Teja Bhupatiraju, Iftikhar Ahmad, Moncef Gabbouj

分类: cs.CV, cs.LG

发布日期: 2025-07-16


💡 一句话要点

提出UL-DD:一个融合视频、生物信号和行为数据的多模态驾驶员疲劳检测数据集

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 驾驶员疲劳检测 多模态数据集 生物信号 行为数据 深度学习 驾驶模拟器 连续标注

📋 核心要点

  1. 现有驾驶员疲劳检测数据集通常数据维度单一,难以全面反映驾驶员状态的复杂变化。
  2. 本研究构建了一个多模态数据集,融合了面部视频、生物信号、行为数据和驾驶模拟器数据,更全面地捕捉驾驶员疲劳状态。
  3. 该数据集包含19名受试者的1400分钟数据,记录了驾驶员状态的连续变化,为疲劳检测算法的训练和评估提供了更真实的数据。

📝 摘要(中文)

本研究提出了一个综合性的公开驾驶员疲劳检测数据集,该数据集集成了面部、行为和生物指标的多模态信号。我们的数据集包括使用深度相机获取的3D面部视频、红外相机拍摄的视频、后方视频以及生物信号,如心率、皮肤电活动、血氧饱和度、皮肤温度和加速度计数据。此外,该数据集还提供了来自方向盘的握力传感器数据以及来自美国卡车模拟器游戏的遥测数据,以提供关于驾驶员在清醒和疲劳状态下行为的更多信息。驾驶员的疲劳程度每四分钟使用卡罗林斯卡睡眠量表(KSS)进行自我报告。模拟环境由三个显示器组成,驾驶条件完全类似于真实的汽车驾驶。数据来自19名受试者(15名男性,4名女性),分为两种状态:完全清醒和表现出困倦迹象。与其他数据集不同,我们的多模态数据集对于每个受试者的每次数据采集会话都具有40分钟的连续时长,总时长达到1400分钟,并且我们记录了驾驶员状态的逐渐变化,而不是离散的清醒/疲劳标签。本研究旨在创建一个全面的驾驶员疲劳多模态数据集,该数据集能够捕获更广泛的生理、行为和驾驶相关信号。该数据集将在收到相应作者的请求后提供。

🔬 方法详解

问题定义:现有驾驶员疲劳检测方法依赖的数据集往往模态单一,例如仅使用面部视频或生物信号,无法全面捕捉驾驶员疲劳状态的复杂变化。此外,现有数据集通常标注离散的清醒/疲劳标签,忽略了驾驶员状态的渐变过程。这限制了模型的泛化能力和实际应用效果。

核心思路:本研究的核心思路是构建一个多模态、连续标注的驾驶员疲劳数据集,通过融合面部视频、生物信号、行为数据和驾驶模拟器数据,更全面地捕捉驾驶员的生理和行为特征。连续标注能够反映驾驶员状态的渐变过程,更贴近真实驾驶场景。

技术框架:该数据集的构建流程主要包括以下几个阶段:1) 招募受试者并进行知情同意;2) 在驾驶模拟器环境中进行数据采集,模拟真实的驾驶场景;3) 使用多种传感器同步记录受试者的面部视频(3D和红外)、生物信号(心率、皮肤电活动等)、行为数据(方向盘握力)和驾驶模拟器数据(遥测数据);4) 每4分钟让受试者使用卡罗林斯卡睡眠量表(KSS)进行自我报告,作为疲劳程度的连续标注;5) 对采集到的数据进行预处理和同步。

关键创新:该数据集的关键创新在于其多模态融合和连续标注。与其他数据集相比,该数据集融合了更丰富的生理、行为和驾驶相关信号,能够更全面地反映驾驶员的疲劳状态。连续标注能够反映驾驶员状态的渐变过程,更贴近真实驾驶场景,有助于训练更鲁棒的疲劳检测模型。

关键设计:数据集采集过程中,使用了三个显示器模拟真实的驾驶环境,并使用美国卡车模拟器游戏提供驾驶数据。生物信号采集设备包括心率传感器、皮肤电活动传感器、血氧饱和度传感器、皮肤温度传感器和加速度计。疲劳程度的连续标注采用卡罗林斯卡睡眠量表(KSS),每4分钟进行一次自我报告。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该数据集包含19名受试者的1400分钟数据,每个受试者的数据采集时长为40分钟,记录了驾驶员状态的连续变化。与其他数据集相比,该数据集具有更长的连续数据记录和更丰富的模态信息,为疲劳检测算法的训练和评估提供了更真实的数据。

🎯 应用场景

该数据集可用于训练和评估各种驾驶员疲劳检测算法,例如基于深度学习的多模态融合模型。这些算法可以应用于智能汽车、卡车运输和公共交通等领域,以提高驾驶安全性,减少交通事故的发生。此外,该数据集还可以用于研究驾驶员疲劳的生理和行为机制,为开发更有效的疲劳干预措施提供依据。

📄 摘要(原文)

In this study, we present a comprehensive public dataset for driver drowsiness detection, integrating multimodal signals of facial, behavioral, and biometric indicators. Our dataset includes 3D facial video using a depth camera, IR camera footage, posterior videos, and biometric signals such as heart rate, electrodermal activity, blood oxygen saturation, skin temperature, and accelerometer data. This data set provides grip sensor data from the steering wheel and telemetry data from the American truck simulator game to provide more information about drivers' behavior while they are alert and drowsy. Drowsiness levels were self-reported every four minutes using the Karolinska Sleepiness Scale (KSS). The simulation environment consists of three monitor setups, and the driving condition is completely like a car. Data were collected from 19 subjects (15 M, 4 F) in two conditions: when they were fully alert and when they exhibited signs of sleepiness. Unlike other datasets, our multimodal dataset has a continuous duration of 40 minutes for each data collection session per subject, contributing to a total length of 1,400 minutes, and we recorded gradual changes in the driver state rather than discrete alert/drowsy labels. This study aims to create a comprehensive multimodal dataset of driver drowsiness that captures a wider range of physiological, behavioral, and driving-related signals. The dataset will be available upon request to the corresponding author.