CrashSight: A Phase-Aware, Infrastructure-Centric Video Benchmark for Traffic Crash Scene Understanding and Reasoning

作者: Rui Gan, Junyi Ma, Pei Li, Xingyou Yang, Kai Chen, Sikai Chen, Bin Ran

分类: cs.CV, cs.AI, cs.RO

发布日期: 2026-04-09

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

提出CrashSight：面向交通碰撞场景理解的基础设施视角视频基准

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 交通碰撞理解 视觉-语言模型 基础设施视角 合作式自动驾驶 场景理解 因果推理 时间推理

📋 核心要点

现有交通场景理解基准主要关注车辆自身视角，缺乏对基础设施视角的评估，限制了合作式自动驾驶的发展。
CrashSight通过构建大规模路侧摄像头数据，并设计多层次问答对，全面评估视觉-语言模型在碰撞场景中的理解和推理能力。
实验表明，现有VLM在场景描述方面表现良好，但在时间和因果推理方面存在不足，为未来研究提供了明确方向。

📝 摘要（中文）

合作式自动驾驶需要从车辆和基础设施的角度理解交通场景。现有的基准测试主要关注车辆自身，对视觉-语言模型(VLM)在安全关键交通场景中的性能评估不足。为此，我们提出了CrashSight，这是一个大规模的视觉-语言基准，利用真实路侧摄像头数据进行道路碰撞理解。该数据集包含250个碰撞视频，标注了1.3万个多项选择问答对，分为两层结构。第一层评估场景上下文和相关方的视觉基础，第二层探究更高层次的推理，包括碰撞机制、因果归因、时间演进和碰撞后结果。我们对8个最先进的VLM进行了基准测试，结果表明，尽管这些模型具有强大的场景描述能力，但在安全关键场景中的时间和因果推理方面表现不佳。我们详细分析了失败案例，并讨论了改进VLM碰撞理解的方向。该基准为合作式自动驾驶中的基础设施辅助感知提供了一个标准化的评估框架。CrashSight基准，包括完整的数据集和代码，可在https://mcgrche.github.io/crashsight 获取。

🔬 方法详解

问题定义：现有交通场景理解基准测试主要集中在自车视角，忽略了基础设施视角的重要性。在合作式自动驾驶中，基础设施提供的全局视角对于提高安全性至关重要。因此，需要一个能够评估模型在理解和推理道路碰撞场景中，基础设施视角下性能的基准测试。现有方法在时间和因果推理方面存在不足，无法满足安全关键场景的需求。

核心思路：CrashSight的核心思路是构建一个大规模、高质量的道路碰撞视频数据集，并设计一个多层次的问答系统，以全面评估视觉-语言模型在理解和推理碰撞场景中的能力。通过路侧摄像头数据，提供全局视角，并针对碰撞机制、因果关系、时间演进等关键方面进行评估。

技术框架：CrashSight基准测试包含以下主要组成部分：1) 收集真实世界路侧摄像头拍摄的道路碰撞视频；2) 对视频进行标注，生成包含1.3万个问答对的数据集；3) 设计一个两层结构的问答体系，第一层评估视觉基础，第二层评估高层次推理能力；4) 使用该基准测试评估现有视觉-语言模型的性能，并分析其优缺点。

关键创新：CrashSight的关键创新在于：1) 首次提出了一个面向基础设施视角的道路碰撞理解基准；2) 设计了一个多层次的问答体系，能够全面评估模型的视觉基础和推理能力；3) 提供了一个大规模、高质量的真实世界道路碰撞视频数据集。与现有方法相比，CrashSight更加关注安全关键场景中的时间和因果推理，并提供了一个标准化的评估框架。

关键设计：CrashSight数据集包含250个碰撞视频，每个视频平均标注52个问答对。问答对分为两层结构：Tier 1关注场景上下文和参与者，Tier 2关注碰撞机制、因果归因、时间演进和碰撞后结果。问题类型包括选择题，答案需要模型进行视觉定位和推理。数据集的构建过程中，采用了严格的质量控制流程，以确保标注的准确性和一致性。评估指标包括准确率等。

🖼️ 关键图片

📊 实验亮点

实验结果表明，尽管现有VLM在场景描述方面表现良好，但在时间和因果推理方面存在明显不足。例如，在评估碰撞机制和因果归因的问答对上，模型的准确率显著低于场景描述相关的问答对。这表明，需要进一步研究和改进VLM在安全关键场景中的推理能力，以满足合作式自动驾驶的需求。

🎯 应用场景

CrashSight基准测试可用于评估和改进视觉-语言模型在合作式自动驾驶中的性能，尤其是在安全关键场景下的理解和推理能力。该研究成果有助于提高自动驾驶系统的安全性，减少交通事故的发生，并促进智能交通系统的发展。未来，可以进一步扩展该基准测试，例如增加更多类型的交通场景，或引入更复杂的推理任务。

📄 摘要（原文）

Cooperative autonomous driving requires traffic scene understanding from both vehicle and infrastructure perspectives. While vision-language models (VLMs) show strong general reasoning capabilities, their performance in safety-critical traffic scenarios remains insufficiently evaluated due to the ego-vehicle focus of existing benchmarks. To bridge this gap, we present \textbf{CrashSight}, a large-scale vision-language benchmark for roadway crash understanding using real-world roadside camera data. The dataset comprises 250 crash videos, annotated with 13K multiple-choice question-answer pairs organized under a two-tier taxonomy. Tier 1 evaluates the visual grounding of scene context and involved parties, while Tier 2 probes higher-level reasoning, including crash mechanics, causal attribution, temporal progression, and post-crash outcomes. We benchmark 8 state-of-the-art VLMs and show that, despite strong scene description capabilities, current models struggle with temporal and causal reasoning in safety-critical scenarios. We provide a detailed analysis of failure scenarios and discuss directions for improving VLM crash understanding. The benchmark provides a standardized evaluation framework for infrastructure-assisted perception in cooperative autonomous driving. The CrashSight benchmark, including the full dataset and code, is accessible at https://mcgrche.github.io/crashsight.

CrashSight: A Phase-Aware, Infrastructure-Centric Video Benchmark for Traffic Crash Scene Understanding and Reasoning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理