VRU-Accident: A Vision-Language Benchmark for Video Question Answering and Dense Captioning for Accident Scene Understanding

📄 arXiv: 2507.09815v2 📥 PDF

作者: Younggun Kim, Ahmed S. Abdelrahman, Mohamed Abdel-Aty

分类: cs.CV

发布日期: 2025-07-13 (更新: 2025-07-22)

备注: 22 pages, 11 figures, 5 tables


💡 一句话要点

提出VRU-Accident基准,用于评估MLLM在VRU事故场景下的视频问答和密集描述能力

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 自动驾驶 弱势道路使用者 事故理解 视频问答

📋 核心要点

  1. 自动驾驶系统在涉及VRU的事故中面临挑战,现有方法缺乏对复杂场景的推理能力。
  2. VRU-Accident基准通过细粒度标注的事故视频,评估MLLM在理解事故时空动态和因果语义方面的能力。
  3. 实验表明,MLLM在视觉属性识别上表现尚可,但在事故原因和可预防性推理上存在显著不足。

📝 摘要(中文)

为了评估多模态大语言模型(MLLM)在涉及弱势道路使用者(VRU)的高风险交通场景中的推理能力,本文提出了VRU-Accident,一个大规模的视觉-语言基准。该基准包含1000个真实行车记录仪事故视频,并标注了6000个多项选择问答对(包含24000个候选选项和3400个唯一答案)以及1000个密集场景描述,涵盖六个安全关键类别。与以往工作不同,VRU-Accident专注于VRU-车辆事故,提供丰富的、细粒度的标注,捕捉事故的时空动态和因果语义。通过对17个最先进模型在多项选择VQA和密集描述任务上的全面评估,发现MLLM在视觉属性方面表现良好,但在推理和描述事故原因、类型和可预防性方面面临重大挑战。

🔬 方法详解

问题定义:现有方法缺乏在涉及弱势道路使用者(VRU)的复杂交通事故场景下,对多模态大语言模型(MLLM)进行定量评估的标准基准。这使得难以系统性地评估和提升MLLM在自动驾驶安全关键任务中的表现,尤其是在理解事故原因、类型和可预防性方面。现有数据集通常缺乏针对VRU事故的细粒度标注,无法充分捕捉事故的时空动态和因果语义。

核心思路:本文的核心思路是构建一个专门针对VRU-车辆事故的大规模视觉-语言基准(VRU-Accident),该基准包含丰富的、细粒度的标注,能够有效评估MLLM在理解和推理复杂事故场景方面的能力。通过提供高质量的问答对和密集场景描述,该基准旨在推动MLLM在自动驾驶安全领域的应用。

技术框架:VRU-Accident基准主要包含以下几个部分:1) 1000个真实行车记录仪事故视频;2) 6000个多项选择问答对,涵盖六个安全关键类别(如事故原因、类型、可预防性等),每个问题包含4个候选答案;3) 1000个密集场景描述,用于提供对事故场景的详细文本描述。该基准的设计重点在于提供高质量的标注,以捕捉事故的时空动态和因果语义。

关键创新:VRU-Accident基准的关键创新在于其专注于VRU-车辆事故,并提供丰富的、细粒度的标注。与以往的视觉-语言基准不同,VRU-Accident不仅关注视觉属性,还关注事故的因果关系和可预防性。此外,该基准还提供了多项选择问答对和密集场景描述,为MLLM的评估提供了多种方式。

关键设计:VRU-Accident基准的关键设计包括:1) 选择真实行车记录仪事故视频,以确保数据的真实性和多样性;2) 设计六个安全关键类别,以涵盖事故的各个方面;3) 采用多项选择问答对和密集场景描述,以提供多种评估方式;4) 对标注进行严格的质量控制,以确保标注的准确性和一致性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

通过在VRU-Accident基准上对17个最先进的MLLM进行评估,发现这些模型在视觉属性方面表现尚可,但在推理和描述事故原因、类型和可预防性方面面临重大挑战。例如,模型在理解事故因果关系和预测事故可预防性方面的准确率明显低于人类水平,表明现有MLLM在安全关键任务中仍有很大的提升空间。

🎯 应用场景

该研究成果可应用于自动驾驶系统的安全模块,提升其在复杂交通场景下对VRU事故的理解和预测能力。通过利用MLLM对事故视频进行分析,可以帮助自动驾驶系统更好地理解事故原因,从而采取更有效的预防措施,降低事故发生的概率,最终提升道路安全性。

📄 摘要(原文)

Ensuring the safety of vulnerable road users (VRUs), such as pedestrians and cyclists, is a critical challenge for autonomous driving systems, as crashes involving VRUs often result in severe or fatal consequences. While multimodal large language models (MLLMs) have shown promise in enhancing scene understanding and decision making in autonomous vehicles, there is currently no standardized benchmark to quantitatively evaluate their reasoning abilities in complex, safety-critical scenarios involving VRUs. To address this gap, we present VRU-Accident, a large-scale vision-language benchmark designed to evaluate MLLMs in high-risk traffic scenarios involving VRUs. VRU-Accident comprises 1K real-world dashcam accident videos, annotated with 6K multiple-choice question-answer pairs across six safety-critical categories (with 24K candidate options and 3.4K unique answer choices), as well as 1K dense scene descriptions. Unlike prior works, our benchmark focuses explicitly on VRU-vehicle accidents, providing rich, fine-grained annotations that capture both spatial-temporal dynamics and causal semantics of accidents. To assess the current landscape of MLLMs, we conduct a comprehensive evaluation of 17 state-of-the-art models on the multiple-choice VQA task and on the dense captioning task. Our findings reveal that while MLLMs perform reasonably well on visually grounded attributes, they face significant challenges in reasoning and describing accident causes, types, and preventability.