CrashSight: A Phase-Aware, Infrastructure-Centric Video Benchmark for Traffic Crash Scene Understanding and Reasoning

📄 arXiv: 2604.08457v2 📥 PDF

作者: Rui Gan, Junyi Ma, Pei Li, Xingyou Yang, Kai Chen, Sikai Chen, Bin Ran

分类: cs.CV, cs.AI, cs.RO

发布日期: 2026-04-09 (更新: 2026-04-10)

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出CrashSight以解决交通事故场景理解问题

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 交通事故理解 视觉-语言模型 多层次推理 安全关键场景 合作式自动驾驶 基准测试 真实世界数据

📋 核心要点

  1. 现有的交通场景理解方法主要集中在自我车辆的视角,导致在安全关键场景中的评估不足。
  2. 本文提出CrashSight基准,通过真实世界的路边摄像头数据,提供了一个多层次的交通事故理解框架。
  3. 实验表明,尽管当前VLM在场景描述上表现良好,但在时间和因果推理方面仍存在显著不足。

📝 摘要(中文)

合作式自动驾驶需要从车辆和基础设施的角度理解交通场景。现有基准测试主要集中在自我车辆的视角,导致在安全关键的交通场景中,视觉-语言模型(VLMs)的表现评估不足。为此,本文提出了CrashSight,这是一个基于真实世界路边摄像头数据的大规模视觉-语言基准,旨在理解道路交通事故。该数据集包含250个事故视频,并配有13,000个多项选择题-答案对,分为两个层级进行注释。第一层级评估场景上下文和相关方的视觉定位,第二层级则探讨更高层次的推理,包括事故机制、因果归属、时间进程和事故后果。我们对8种最先进的VLM进行了基准测试,结果显示,尽管当前模型在场景描述能力上表现强劲,但在安全关键场景中的时间和因果推理方面仍存在困难。

🔬 方法详解

问题定义:本文旨在解决现有交通场景理解基准测试中缺乏对安全关键场景的评估问题,尤其是自我车辆视角的局限性。

核心思路:通过构建CrashSight基准,利用真实的路边摄像头数据,提供多层次的交通事故理解评估,旨在提升VLM在复杂场景中的推理能力。

技术框架:CrashSight基准包括250个事故视频,配有13,000个多项选择题-答案对,分为两个层级:第一层级关注视觉定位,第二层级关注高层次推理。

关键创新:该研究的创新在于引入了基础设施视角的交通事故理解,填补了现有方法在安全关键场景中的空白,提供了标准化的评估框架。

关键设计:数据集的注释采用两层分类法,第一层级关注场景上下文,第二层级则涉及事故机制和因果关系,确保了评估的全面性和深度。实验中对8种VLM进行了基准测试,分析了其在时间和因果推理上的不足。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,尽管当前的VLM在场景描述能力上表现良好,但在时间和因果推理方面的准确率低于50%。通过对8种VLM的基准测试,揭示了其在安全关键场景中的不足,为后续研究提供了改进方向。

🎯 应用场景

CrashSight的研究成果可广泛应用于合作式自动驾驶系统,帮助车辆和基础设施更好地理解和响应复杂交通场景。通过提升事故理解能力,该基准有助于提高交通安全,减少事故发生率,并为未来的智能交通系统提供重要的参考依据。

📄 摘要(原文)

Cooperative autonomous driving requires traffic scene understanding from both vehicle and infrastructure perspectives. While vision-language models (VLMs) show strong general reasoning capabilities, their performance in safety-critical traffic scenarios remains insufficiently evaluated due to the ego-vehicle focus of existing benchmarks. To bridge this gap, we present \textbf{CrashSight}, a large-scale vision-language benchmark for roadway crash understanding using real-world roadside camera data. The dataset comprises 250 crash videos, annotated with 13K multiple-choice question-answer pairs organized under a two-tier taxonomy. Tier 1 evaluates the visual grounding of scene context and involved parties, while Tier 2 probes higher-level reasoning, including crash mechanics, causal attribution, temporal progression, and post-crash outcomes. We benchmark 8 state-of-the-art VLMs and show that, despite strong scene description capabilities, current models struggle with temporal and causal reasoning in safety-critical scenarios. We provide a detailed analysis of failure scenarios and discuss directions for improving VLM crash understanding. The benchmark provides a standardized evaluation framework for infrastructure-assisted perception in cooperative autonomous driving. The CrashSight benchmark, including the full dataset and code, is accessible at https://mcgrche.github.io/crashsight.