EyeCue: Driver Cognitive Distraction Detection via Gaze-Empowered Egocentric Video Understanding

📄 arXiv: 2605.07859v1 📥 PDF

作者: Lang Zhang, JinYi Yoon, Matthew Corbett, Abhijit Sarkar, Bo Ji

分类: cs.CV

发布日期: 2026-05-08

备注: Accepted to the 35th International Joint Conference on Artificial Intelligence (IJCAI 2026)

🔗 代码/项目: GITHUB


💡 一句话要点

提出EyeCue框架:通过视线引导的自我中心视频理解技术,有效检测驾驶员认知分心。

🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 认知分心检测 自我中心视频 视线追踪 多模态融合 驾驶员行为分析 时空注意力机制

📋 核心要点

  1. 认知分心难以通过传统视觉或肢体动作检测,因为驾驶员在思考无关事务时,视觉表现往往看似正常,导致现有方法难以捕捉这种隐蔽的注意力偏移。
  2. EyeCue框架通过将视线追踪数据与自我中心视频流深度融合,构建了上下文感知的注意力建模机制,从而捕捉视线与环境交互中的认知分心特征。
  3. 实验结果显示,EyeCue在CogDrive数据集上达到了74.38%的准确率,相比现有基线提升超过7%,并在多场景下表现出极强的鲁棒性与泛化能力。

📝 摘要(中文)

驾驶员认知分心是导致道路交通事故的主要原因,且极难检测。与手动或视觉分心不同,认知分心源于驾驶员思考与驾驶无关的内容,即便其视觉上看似专注且无明显肢体动作。本文提出了EyeCue,一个视线引导的自我中心视频理解框架,旨在检测驾驶员的认知分心。其核心洞察在于认知分心表现为视线与视觉环境之间的交互。EyeCue通过将视线数据与自我中心视频融合,实现了对驾驶员注意力随时间变化的上下文感知建模。此外,为解决现有数据集规模和多样性不足的问题,我们引入了CogDrive数据集,通过对四个现有驾驶数据集进行认知分心标注,构建了全面的多场景基准。在CogDrive上的广泛评估表明,EyeCue达到了74.38%的最高准确率,较6个模型家族的11个基线提升了7%以上,并在不同路况、时间及天气条件下展现出强大的泛化能力。

🔬 方法详解

问题定义:论文旨在解决驾驶员认知分心(Cognitive Distraction)的检测难题。现有方法多关注手动或视觉分心,而认知分心表现为驾驶员在视觉看似专注的情况下,思维脱离驾驶任务,缺乏明显的物理动作特征,导致传统方法难以识别。

核心思路:核心洞察在于认知分心本质上是“视线”与“环境上下文”之间交互的异常。论文认为,通过建模驾驶员视线在特定驾驶场景下的时空分布,可以捕捉到认知负荷变化导致的注意力模式偏移。

技术框架:EyeCue框架采用多模态融合架构。首先,利用自我中心视频提取环境特征;其次,将视线追踪数据作为关键引导信号;最后,通过跨模态交互模块将视线轨迹与视频上下文进行时空对齐与特征融合,以预测认知分心状态。

关键创新:最重要的创新在于提出了视线引导的跨模态交互建模,而非简单的特征拼接。此外,构建了CogDrive数据集,通过整合多源驾驶数据并补充认知分心标注,填补了该领域高质量标注数据的空白。

关键设计:模型采用了时序注意力机制来处理视频流,通过对视线热图与环境语义特征的加权融合,强化了对关键驾驶任务区域的关注。损失函数设计上,结合了分类损失与时序一致性约束,以提升模型在长视频序列中的稳定性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

EyeCue在CogDrive数据集上实现了74.38%的准确率,显著优于包括CNN、Transformer及多模态融合在内的11个主流基线模型,性能提升幅度超过7%。实验证明,该模型在不同路况、昼夜光照及复杂天气条件下均保持了70%以上的准确率,验证了其在真实驾驶环境中的卓越泛化能力与鲁棒性。

🎯 应用场景

该研究可广泛应用于高级驾驶辅助系统(ADAS)与自动驾驶监控系统。通过实时监测驾驶员的认知状态,系统能在危险发生前发出预警,显著降低因分心导致的交通事故。此外,该技术在驾驶员行为分析、保险风险评估及驾驶员培训领域具有重要的商业价值与社会意义。

📄 摘要(原文)

Driver cognitive distraction is a major cause of road collisions and remains difficult to detect. Unlike manual or visual distraction, cognitive distraction is diverted by thoughts unrelated to driving, even when the driver appears visually attentive and exhibits no explicit physical movements. In this work, we propose EyeCue, a gaze-empowered egocentric video understanding framework, to detect driver cognitive distraction. A key insight is that cognitive distraction manifests in the interaction between eye gaze and visual context. To capture this interaction, EyeCue integrates eye gaze with egocentric video to enable context-aware modeling of the driver's attention over time. Furthermore, to tackle the limited scale and diversity of existing datasets, we introduce CogDrive, a comprehensive multi-scenario dataset that augments four existing driving datasets with cognitive distraction annotations. Through extensive evaluations on CogDrive, we show that EyeCue achieves the highest accuracy of 74.38%, outperforming 11 baselines from 6 model families by over 7%. Notably, EyeCue can achieve an accuracy of over 70% across various driving scenarios (different road types, times of day, and weather conditions) with strong generalizability. These results highlight the importance of modeling gaze-context interactions and the effectiveness of cross-modal interaction modeling for multimodal cognitive distraction detection. Our codes and CogDrive dataset resources are available at https://github.com/langzhang2000/EyeCue.