A Contextual Analysis of Driver-Facing and Dual-View Video Inputs for Distraction Detection in Naturalistic Driving Environments

📄 arXiv: 2512.20025v1 📥 PDF

作者: Anthony Dontoh, Stephanie Ivey, Armstrong Aboah

分类: cs.CV

发布日期: 2025-12-23


💡 一句话要点

研究双视角视频输入对自然驾驶环境下分心检测的影响,强调融合设计的重要性。

🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 分心驾驶检测 双视角融合 时空动作识别 自然驾驶环境 多模态学习

📋 核心要点

  1. 现有分心驾驶检测模型主要依赖驾驶员视角,忽略了道路环境等关键上下文信息。
  2. 研究通过融合驾驶员和道路双视角信息,探索提升分心检测精度的可行性。
  3. 实验结果表明,双视角融合效果依赖于模型架构,需专门设计以避免信息冲突。

📝 摘要(中文)

本研究探讨了在基于计算机视觉的分心驾驶检测中,结合驾驶员视角和道路视角能否提高检测精度。现有模型主要依赖驾驶员视角,忽略了影响驾驶行为的关键环境信息。本研究使用自然驾驶环境下的同步双摄像头记录,对三种领先的时空动作识别架构(SlowFast-R50、X3D-M 和 SlowOnly-R50)进行了基准测试。每个模型在两种输入配置下评估:仅驾驶员视角和堆叠双视角。结果表明,虽然上下文输入可以在某些模型中提高检测精度,但性能提升很大程度上取决于底层架构。单路径 SlowOnly 模型在使用双视角输入时实现了 9.8% 的改进,而双路径 SlowFast 模型由于表征冲突导致准确率下降了 7.2%。这些发现表明,简单地添加视觉上下文是不够的,除非架构专门设计用于支持多视角融合,否则可能会导致干扰。本研究是首次使用自然驾驶数据对单视角和双视角分心检测模型进行系统比较的研究之一,并强调了融合感知设计对于未来多模态驾驶员监控系统的重要性。

🔬 方法详解

问题定义:论文旨在解决自然驾驶环境下,仅使用驾驶员视角视频进行分心检测时,忽略环境上下文信息导致检测精度受限的问题。现有方法的痛点在于无法有效利用环境信息,可能导致对驾驶员行为的误判。

核心思路:论文的核心思路是将道路前方的环境视角信息与驾驶员视角信息相结合,作为模型的输入,从而为分心检测提供更丰富的上下文信息。期望通过这种方式,模型能够更准确地判断驾驶员的行为是否属于分心驾驶。

技术框架:整体框架包括数据采集、数据预处理、模型训练和评估四个主要阶段。首先,使用双摄像头同步记录驾驶员和道路的视频数据。然后,对视频数据进行预处理,例如同步、裁剪和缩放。接着,使用预处理后的数据训练三种时空动作识别模型:SlowFast-R50、X3D-M 和 SlowOnly-R50。最后,在测试集上评估模型的性能,并比较不同输入配置(单视角 vs. 双视角)下的结果。

关键创新:论文的关键创新在于系统性地比较了单视角和双视角输入对分心检测模型性能的影响,并揭示了不同模型架构对多视角信息融合的敏感性。强调了在设计多模态驾驶员监控系统时,需要考虑融合感知设计的重要性,避免简单地添加视觉上下文反而导致性能下降。

关键设计:论文使用了三种不同的时空动作识别模型,分别是 SlowFast-R50、X3D-M 和 SlowOnly-R50。这些模型在视频理解领域具有代表性。关键设计在于对比了这些模型在单视角和双视角输入下的性能差异。对于双视角输入,论文采用了简单的堆叠方式,将驾驶员视角和道路视角的视频帧连接在一起作为模型的输入。没有特别设计复杂的融合机制,而是侧重于观察不同模型架构对这种简单融合方式的适应性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,单路径 SlowOnly 模型在采用双视角输入时,分心检测准确率提升了 9.8%。然而,双路径 SlowFast 模型在相同条件下,准确率反而下降了 7.2%。这表明,简单地添加视觉上下文并不一定能提高性能,需要针对不同的模型架构进行专门的融合设计。

🎯 应用场景

该研究成果可应用于高级驾驶辅助系统(ADAS)和自动驾驶系统,用于实时监测驾驶员状态,及时发出警告或采取干预措施,从而提高驾驶安全性。此外,该研究也为多模态驾驶员监控系统的设计提供了指导,有助于开发更智能、更可靠的驾驶辅助技术。

📄 摘要(原文)

Despite increasing interest in computer vision-based distracted driving detection, most existing models rely exclusively on driver-facing views and overlook crucial environmental context that influences driving behavior. This study investigates whether incorporating road-facing views alongside driver-facing footage improves distraction detection accuracy in naturalistic driving conditions. Using synchronized dual-camera recordings from real-world driving, we benchmark three leading spatiotemporal action recognition architectures: SlowFast-R50, X3D-M, and SlowOnly-R50. Each model is evaluated under two input configurations: driver-only and stacked dual-view. Results show that while contextual inputs can improve detection in certain models, performance gains depend strongly on the underlying architecture. The single-pathway SlowOnly model achieved a 9.8 percent improvement with dual-view inputs, while the dual-pathway SlowFast model experienced a 7.2 percent drop in accuracy due to representational conflicts. These findings suggest that simply adding visual context is not sufficient and may lead to interference unless the architecture is specifically designed to support multi-view integration. This study presents one of the first systematic comparisons of single- and dual-view distraction detection models using naturalistic driving data and underscores the importance of fusion-aware design for future multimodal driver monitoring systems.