When language and vision meet road safety: leveraging multimodal large language models for video-based traffic accident analysis

📄 arXiv: 2501.10604v1 📥 PDF

作者: Ruixuan Zhang, Beichen Wang, Juexiao Zhang, Zilin Bian, Chen Feng, Kaan Ozbay

分类: cs.CV, cs.AI, cs.CL

发布日期: 2025-01-17

DOI: 10.1016/j.aap.2025.108077

🔗 代码/项目: GITHUB


💡 一句话要点

提出SeeUnsafe框架,利用多模态大语言模型进行视频交通安全分析,实现交互式事故分析。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 交通安全 视频分析 交通事故分析 视觉定位

📋 核心要点

  1. 现有基于视觉的交通视频分析方法侧重于提取车辆轨迹等原始信息,缺乏对事故场景的深入理解和解释。
  2. SeeUnsafe框架利用多模态大语言模型,将视频分析转化为交互式对话,自动化视频分类和视觉定位等复杂任务。
  3. 实验表明,SeeUnsafe在交通事故视频分类和视觉定位方面表现出色,并提出了新的MLLM评估指标IMS。

📝 摘要(中文)

本文提出SeeUnsafe框架,该框架集成了多模态大语言模型(MLLM)智能体,将基于视频的交通事故分析从传统的“提取-解释”工作流程转变为更具交互性的对话式方法。这种转变通过自动化视频分类和视觉定位等复杂任务,显著提高了处理吞吐量,并通过无缝调整以适应不同的交通场景和用户定义的查询,从而提高了适应性。该框架采用基于严重程度的聚合策略来处理各种长度的视频,并采用一种新颖的多模态提示来生成用于审查和评估的结构化响应,并实现细粒度的视觉定位。引入了IMS(信息匹配分数),这是一种新的基于MLLM的指标,用于将结构化响应与ground truth对齐。在Toyota Woven Traffic Safety数据集上进行了大量实验,证明SeeUnsafe通过利用现成的MLLM有效地执行了事故感知的视频分类和视觉定位。

🔬 方法详解

问题定义:现有基于视觉的交通安全分析方法主要集中于提取车辆轨迹、目标检测等底层信息,缺乏对事故原因、责任划分等高层语义的理解和推理。人工分析大量交通视频耗时耗力,难以满足实时性和覆盖率的需求。因此,如何利用AI技术自动、高效地分析交通视频,提取有价值的事故信息,是亟待解决的问题。

核心思路:SeeUnsafe的核心思路是将多模态大语言模型(MLLM)引入交通视频分析领域,利用MLLM强大的语言理解和推理能力,将视频信息转化为自然语言描述,并与用户进行交互式对话。通过这种方式,可以自动化视频分类、视觉定位等任务,并生成结构化的事故分析报告。

技术框架:SeeUnsafe框架主要包含以下几个模块:1) 视频输入模块:接收交通摄像头拍摄的视频流。2) 视频特征提取模块:利用预训练的视觉模型(如CLIP)提取视频帧的视觉特征。3) 多模态提示模块:设计特定的多模态提示,将视觉特征和用户查询输入到MLLM中。4) MLLM推理模块:利用MLLM进行视频分类、视觉定位和事故原因分析等推理任务。5) 结构化输出模块:将MLLM的输出转化为结构化的事故分析报告,方便用户查看和评估。

关键创新:SeeUnsafe的关键创新在于:1) 将MLLM引入交通视频分析领域,实现了端到端的事故分析流程。2) 提出了基于严重程度的聚合策略,用于处理不同长度的视频。3) 设计了新颖的多模态提示,引导MLLM生成结构化的响应。4) 提出了新的MLLM评估指标IMS,用于评估MLLM生成结果的准确性和完整性。

关键设计:在多模态提示设计方面,论文采用了包含视频描述、用户查询和期望输出格式的提示模板。在视频特征提取方面,使用了CLIP模型提取视频帧的视觉特征,并将这些特征拼接成一个序列输入到MLLM中。在MLLM选择方面,论文使用了开源的LLaVA模型。在IMS指标计算方面,论文首先将MLLM的输出和ground truth转化为结构化的信息三元组,然后计算两者之间的匹配程度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在Toyota Woven Traffic Safety数据集上的实验结果表明,SeeUnsafe框架能够有效地进行事故感知的视频分类和视觉定位。与传统的基于视觉的方法相比,SeeUnsafe在事故分类准确率方面取得了显著提升。此外,提出的IMS指标能够有效地评估MLLM生成结果的质量。

🎯 应用场景

SeeUnsafe框架可应用于智能交通管理、交通事故责任认定、交通安全评估等领域。通过自动化分析交通视频,可以提高事故处理效率,减少人工成本,并为交通安全决策提供数据支持。未来,该框架还可以扩展到其他视频分析场景,如安防监控、行为识别等。

📄 摘要(原文)

The increasing availability of traffic videos functioning on a 24/7/365 time scale has the great potential of increasing the spatio-temporal coverage of traffic accidents, which will help improve traffic safety. However, analyzing footage from hundreds, if not thousands, of traffic cameras in a 24/7/365 working protocol remains an extremely challenging task, as current vision-based approaches primarily focus on extracting raw information, such as vehicle trajectories or individual object detection, but require laborious post-processing to derive actionable insights. We propose SeeUnsafe, a new framework that integrates Multimodal Large Language Model (MLLM) agents to transform video-based traffic accident analysis from a traditional extraction-then-explanation workflow to a more interactive, conversational approach. This shift significantly enhances processing throughput by automating complex tasks like video classification and visual grounding, while improving adaptability by enabling seamless adjustments to diverse traffic scenarios and user-defined queries. Our framework employs a severity-based aggregation strategy to handle videos of various lengths and a novel multimodal prompt to generate structured responses for review and evaluation and enable fine-grained visual grounding. We introduce IMS (Information Matching Score), a new MLLM-based metric for aligning structured responses with ground truth. We conduct extensive experiments on the Toyota Woven Traffic Safety dataset, demonstrating that SeeUnsafe effectively performs accident-aware video classification and visual grounding by leveraging off-the-shelf MLLMs. Source code will be available at \url{https://github.com/ai4ce/SeeUnsafe}.