SAVeD: A First-Person Social Media Video Dataset for ADAS-equipped vehicle Near-Miss and Crash Event Analyses

📄 arXiv: 2512.17724v1 📥 PDF

作者: Shaoyan Zhai, Mohamed Abdel-Aty, Chenzhu Wang, Rodrigo Vena Garcia

分类: cs.CV

发布日期: 2025-12-19


💡 一句话要点

SAVeD:首个用于ADAS车辆近失和碰撞事件分析的第一人称社交媒体视频数据集

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: ADAS 自动驾驶 数据集 碰撞风险评估 近失事件 社交媒体视频 视频理解

📋 核心要点

  1. 现有ADAS车辆研究缺乏包含真实风险场景(如近失事件和系统故障)的大规模数据集,限制了安全关键研究的进展。
  2. SAVeD数据集通过收集社交媒体上的第一人称ADAS车辆视频,并进行详细标注,为研究人员提供了真实且多样化的数据。
  3. 实验表明,SAVeD数据集能够有效提升VLLM模型在复杂近失场景中的性能,并为碰撞风险评估提供了新的方法。

📝 摘要(中文)

本文提出了SAVeD,一个大规模视频数据集,专门用于分析配备ADAS车辆的碰撞、近失事件和系统失效。该数据集从公开的社交媒体内容中收集,包含2119个第一人称视频,涵盖了不同地点、光照条件和天气场景下的ADAS车辆操作。SAVeD数据集包含碰撞、规避动作和脱离等视频帧级别的标注,从而能够分析感知和决策方面的失效。论文通过多个分析展示了SAVeD的效用:(1) 提出了一个新颖的框架,集成了语义分割和单目深度估计,以计算动态对象的实时碰撞时间(TTC)。(2) 利用广义极值(GEV)分布来建模和量化不同道路类型中碰撞和近失事件的极端风险。(3) 为最先进的VLLM模型(VideoLLaMA2和InternVL2.5 HiCo R16)建立了基准,表明SAVeD的详细标注通过复杂近失场景中的领域自适应显著提高了模型性能。

🔬 方法详解

问题定义:现有ADAS研究数据集主要集中在模拟环境或人类驾驶车辆数据,缺乏真实ADAS车辆在风险条件下的行为数据,难以支持对近失事件和系统失效等安全关键场景的深入分析。因此,需要一个包含真实ADAS车辆风险行为的大规模数据集,以促进相关研究。

核心思路:论文的核心思路是从公开的社交媒体视频中挖掘包含ADAS车辆碰撞、近失事件和脱离等风险场景的视频数据,并进行详细标注,构建一个大规模、真实且多样化的数据集,为ADAS安全研究提供数据基础。

技术框架:SAVeD数据集的构建流程主要包括以下几个阶段:1) 数据收集:从社交媒体平台收集包含ADAS车辆相关关键词的视频。2) 数据筛选:人工筛选出包含碰撞、近失事件和脱离等风险场景的视频。3) 数据标注:对视频进行帧级别的标注,包括碰撞、规避动作和脱离等事件。4) 数据分析:利用数据集进行碰撞风险评估和VLLM模型性能评估。

关键创新:SAVeD数据集的关键创新在于:1) 数据来源的真实性:数据集来源于真实的社交媒体视频,反映了实际道路环境中的ADAS车辆行为。2) 场景的多样性:数据集涵盖了不同地点、光照条件和天气场景下的ADAS车辆操作。3) 标注的详细性:数据集包含视频帧级别的标注,能够支持对感知和决策方面的失效进行分析。

关键设计:论文提出了一个基于语义分割和单目深度估计的实时碰撞时间(TTC)计算框架。此外,论文还利用广义极值(GEV)分布来建模和量化不同道路类型中碰撞和近失事件的极端风险。VLLM模型性能评估方面,使用了VideoLLaMA2和InternVL2.5 HiCo R16等先进模型,并进行了领域自适应训练。

📊 实验亮点

实验结果表明,SAVeD数据集能够有效提升VLLM模型在复杂近失场景中的性能。通过在SAVeD数据集上进行领域自适应训练,VideoLLaMA2和InternVL2.5 HiCo R16等模型的性能得到了显著提升。此外,论文提出的基于GEV分布的碰撞风险评估方法能够有效量化不同道路类型中的极端风险。

🎯 应用场景

SAVeD数据集可应用于ADAS系统安全性评估、自动驾驶风险预测、驾驶员行为分析等领域。通过分析数据集中的碰撞和近失事件,可以识别ADAS系统的潜在缺陷,改进系统设计,提高自动驾驶车辆的安全性。此外,该数据集还可以用于训练和评估VLLM模型,提升其在复杂交通场景下的理解和推理能力。

📄 摘要(原文)

The advancement of safety-critical research in driving behavior in ADAS-equipped vehicles require real-world datasets that not only include diverse traffic scenarios but also capture high-risk edge cases such as near-miss events and system failures. However, existing datasets are largely limited to either simulated environments or human-driven vehicle data, lacking authentic ADAS (Advanced Driver Assistance System) vehicle behavior under risk conditions. To address this gap, this paper introduces SAVeD, a large-scale video dataset curated from publicly available social media content, explicitly focused on ADAS vehicle-related crashes, near-miss incidents, and disengagements. SAVeD features 2,119 first-person videos, capturing ADAS vehicle operations in diverse locations, lighting conditions, and weather scenarios. The dataset includes video frame-level annotations for collisions, evasive maneuvers, and disengagements, enabling analysis of both perception and decision-making failures. We demonstrate SAVeD's utility through multiple analyses and contributions: (1) We propose a novel framework integrating semantic segmentation and monocular depth estimation to compute real-time Time-to-Collision (TTC) for dynamic objects. (2) We utilize the Generalized Extreme Value (GEV) distribution to model and quantify the extreme risk in crash and near-miss events across different roadway types. (3) We establish benchmarks for state-of-the-art VLLMs (VideoLLaMA2 and InternVL2.5 HiCo R16), showing that SAVeD's detailed annotations significantly enhance model performance through domain adaptation in complex near-miss scenarios.