MOTOR: A Multimodal Dataset for Two-Wheeler Rider Behavior Understanding

📄 arXiv: 2605.22550v1 📥 PDF

作者: Varun A. Paturkar, Shankar Gangisetty, C. V. Jawahar

分类: cs.CV

发布日期: 2026-05-21


💡 一句话要点

提出MOTOR数据集以解决两轮车骑行行为理解问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 两轮车 骑行行为 多模态数据集 行为识别 合法性分类 智能交通系统 安全监测

📋 核心要点

  1. 现有对两轮车骑行行为的研究相较于四轮车显著不足,缺乏多模态数据集支持。
  2. 本文提出MOTOR数据集,集成多种传感器数据,旨在深入理解两轮车骑行行为及其合法性。
  3. 实验表明,结合RGB视频、眼动追踪和遥测数据的多模态融合方法在行为识别上表现最佳。

📝 摘要(中文)

两轮车在全球南方的交通事故中占据了不成比例的高份额,但对其骑行行为的研究远远落后于四轮车。为填补这一空白,本文提出了MOTOR数据集,这是首个大规模、多视角、多模态的两轮车骑行行为资源,包含1629个序列(超过25小时的视频数据),集成了前后视角和头盔视频、骑行者眼动追踪、路面音频及遥测数据。丰富的注释捕捉了交通环境、骑行者状态、12种骑行动作及合法性标签。通过基于视频动作识别的最新技术进行骑行行为识别和动作合法性分类,发现结合RGB、眼动和遥测数据的效果最佳。MOTOR为提升两轮车骑行安全理解提供了独特基础。

🔬 方法详解

问题定义:本文旨在解决两轮车骑行行为理解不足的问题,现有研究缺乏大规模多模态数据集,限制了对骑行安全的深入分析。

核心思路:提出MOTOR数据集,集成多视角视频、眼动追踪和遥测数据,以全面捕捉骑行者的行为和状态,推动安全驾驶研究。

技术框架:数据集包含1629个骑行序列,结合前后视角和头盔视频、眼动数据、音频及遥测信息,采用最新的视频动作识别技术进行行为识别和合法性分类。

关键创新:MOTOR数据集是首个专注于两轮车的多模态资源,提供丰富的行为注释和合法性标签,填补了现有研究的空白。

关键设计:在模型训练中,采用CNN和基于Transformer的网络结构,结合多模态数据进行融合,优化损失函数以提升识别精度。实验结果显示,RGB、眼动和遥测数据的结合显著提高了性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,结合RGB视频、眼动追踪和遥测数据的多模态融合方法在骑行行为识别和合法性分类任务中表现优异,识别准确率显著高于单一模态,具体提升幅度达到XX%(具体数据未知)。

🎯 应用场景

MOTOR数据集的潜在应用领域包括智能交通系统、骑行安全监测和行为分析模型的开发。通过深入理解骑行者行为,可以为交通管理和安全政策提供数据支持,降低交通事故发生率,提升道路安全性。未来,该数据集可为相关领域的研究提供基础,推动智能交通技术的发展。

📄 摘要(原文)

Two-wheelers account for a disproportionately high share of road fatalities in the Global South. Research on two-wheeler rider behavior, however, lags far behind four-wheelers, where multimodal datasets have driven major advances in Advanced Driver Assistance Systems (ADAS). To address this gap, we present the MOtorized TwO-wheeler Rider (MOTOR) dataset, the first large-scale, multi-view, multimodal resource dedicated to two-wheelers in dense, unstructured traffic. MOTOR comprises 1,629 sequences (25+ hours of video data) collected from 16 riders and integrates synchronized front, rear, and helmet videos, rider eye-gaze from wearable trackers, on-road audio, and telemetry (GPS, accelerometer, gyroscope). Rich annotations capture traffic context, rider state, 12 riding maneuvers spanning conventional and unconventional behaviors, and legality labels (Legal, Illegal, Unspecified). We benchmark rider behavior recognition and maneuver legality classification using state-of-the-art video action recognition backbones (CNN and Transformer-based), extended with multimodal fusion, and find that combining RGB, gaze, and telemetry consistently yields the best performance. MOTOR thus provides a unique foundation for advancing safety-critical understanding of two-wheeler riding. It offers the research community a benchmark to develop and evaluate models for behavior analysis, legality-aware prediction, and intelligent transportation systems. Dataset and code is available at https: //varuniiith.github.io/MOTOR-Dataset/