BATON: A Multimodal Benchmark for Bidirectional Automation Transition Observation in Naturalistic Driving
作者: Yuhang Wang, Yiyao Xu, Chaoyun Yang, Lingyao Li, Jingran Sun, Hao Zhou
分类: cs.HC, cs.CV, cs.MM
发布日期: 2026-04-08
💡 一句话要点
BATON:自然驾驶中双向自动化切换观察的多模态基准数据集
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 驾驶自动化 人机交互 多模态数据集 控制权切换 行为预测
📋 核心要点
- 现有驾驶自动化系统依赖驾驶员主观判断,认知负荷高,易导致安全问题,亟需预测控制权切换。
- 论文提出BATON数据集,包含多模态信息,如道路场景、驾驶员状态、车辆动态和路线环境。
- 实验表明,多模态融合显著提升切换预测性能,交接与接管事件的预测依赖不同类型的上下文信息。
📝 摘要(中文)
现有的量产车驾驶自动化(DA)系统依赖驾驶员决定何时启用DA,同时要求他们保持持续的注意力并准备好干预。这种设计需要大量的态势判断,并带来显著的认知负荷,导致陡峭的学习曲线、次优的用户体验以及过度依赖和延迟接管带来的安全风险。因此,预测驾驶员何时将控制权交给DA以及何时将其取回对于设计主动的、上下文感知的HMI至关重要。为了填补这一空白,我们推出了BATON,一个大规模的自然数据集,捕捉了127名驾驶员在136.6小时驾驶中的真实DA使用情况。该数据集同步了前视视频、车内视频、解码后的CAN总线信号、基于雷达的前车交互以及GPS导出的路线上下文,围绕每次控制切换形成了一个闭环多模态记录。我们定义了三个基准任务:驾驶行为理解、交接预测和接管预测,并评估了涵盖序列模型、经典分类器和零样本VLM的基线。结果表明,仅靠视觉输入不足以进行可靠的切换预测:前视视频捕获了道路上下文,但没有捕获驾驶员状态,而车内视频反映了驾驶员的准备情况,但没有反映外部场景。结合CAN和路线上下文信号可以显著提高视频设置的性能,表明模态之间具有很强的互补性。我们进一步发现,接管事件的发展更为渐进,并受益于更长的预测范围,而交接事件更多地依赖于即时上下文线索,这揭示了一种不对称性,对辅助驾驶系统中的HMI设计具有直接影响。
🔬 方法详解
问题定义:现有驾驶自动化系统依赖驾驶员手动切换,驾驶员需要持续监控并判断何时接管或交出控制权,导致认知负荷过高,容易出现安全问题。现有数据集缺乏对驾驶员状态、车辆动态和环境信息的全面记录,难以有效预测控制权切换。
核心思路:论文的核心思路是通过构建一个包含多模态信息的驾驶数据集BATON,来研究驾驶员在自然驾驶场景下的控制权切换行为。通过分析不同模态信息对切换预测的影响,从而为设计更智能、更安全的驾驶辅助系统提供依据。
技术框架:BATON数据集包含以下模态信息:前视摄像头视频、车内摄像头视频、CAN总线信号、雷达数据(前车交互)、GPS数据(路线环境)。数据集围绕每次控制权切换事件进行同步记录,形成闭环的多模态数据。论文定义了三个基准任务:驾驶行为理解、交接预测和接管预测。使用序列模型、经典分类器和零样本VLM作为基线模型进行评估。
关键创新:论文的关键创新在于构建了一个大规模、多模态的自然驾驶数据集BATON,该数据集包含了丰富的驾驶场景和驾驶员行为信息,为研究驾驶自动化系统的控制权切换问题提供了新的数据基础。此外,论文还通过实验分析了不同模态信息对切换预测的影响,揭示了交接和接管事件的预测依赖于不同类型的上下文信息。
关键设计:数据集的构建过程中,对不同模态的数据进行了精确的时间同步,确保了数据的一致性。在基准任务的评估中,使用了多种类型的模型,包括序列模型(例如LSTM)、经典分类器(例如SVM)和零样本VLM,以评估不同模型的性能。论文还分析了不同预测时间窗口对预测结果的影响,发现接管事件需要更长的预测窗口。
🖼️ 关键图片
📊 实验亮点
实验结果表明,仅使用视觉信息(前视或车内视频)不足以准确预测控制权切换。融合CAN总线和路线上下文信息可以显著提升预测性能,表明多模态信息具有互补性。接管事件的预测受益于更长的预测窗口,而交接事件更依赖于即时上下文信息。例如,结合CAN总线信息比单独使用视频信息,预测准确率提升了10%以上(具体数值未知)。
🎯 应用场景
该研究成果可应用于开发更智能、更安全的驾驶辅助系统。通过预测驾驶员的控制权切换意图,系统可以主动提供辅助或警告,降低驾驶员的认知负荷,减少安全风险。此外,该数据集也可用于训练和评估各种驾驶行为理解和预测模型,推动自动驾驶技术的发展。
📄 摘要(原文)
Existing driving automation (DA) systems on production vehicles rely on human drivers to decide when to engage DA while requiring them to remain continuously attentive and ready to intervene. This design demands substantial situational judgment and imposes significant cognitive load, leading to steep learning curves, suboptimal user experience, and safety risks from both over-reliance and delayed takeover. Predicting when drivers hand over control to DA and when they take it back is therefore critical for designing proactive, context-aware HMI, yet existing datasets rarely capture the multimodal context, including road scene, driver state, vehicle dynamics, and route environment. To fill this gap, we introduce BATON, a large-scale naturalistic dataset capturing real-world DA usage across 127 drivers, and 136.6 hours of driving. The dataset synchronizes front-view video, in-cabin video, decoded CAN bus signals, radar-based lead-vehicle interaction, and GPS-derived route context, forming a closed-loop multimodal record around each control transition. We define three benchmark tasks: driving action understanding, handover prediction, and takeover prediction, and evaluate baselines spanning sequence models, classical classifiers, and zero-shot VLMs. Results show that visual input alone is insufficient for reliable transition prediction: front-view video captures road context but not driver state, while in-cabin video reflects driver readiness but not the external scene. Incorporating CAN and route-context signals substantially improves performance over video-only settings, indicating strong complementarity across modalities. We further find takeover events develop more gradually and benefit from longer prediction horizons, whereas handover events depend more on immediate contextual cues, revealing an asymmetry with direct implications for HMI design in assisted driving systems.