DAVE: Diverse Atomic Visual Elements Dataset with High Representation of Vulnerable Road Users in Complex and Unpredictable Environments

📄 arXiv: 2412.20042v1 📥 PDF

作者: Xijun Wang, Pedro Sandoval-Segura, Chengyuan Zhang, Junyun Huang, Tianrui Guan, Ruiqi Xian, Fuxiao Liu, Rohan Chandra, Boqing Gong, Dinesh Manocha

分类: cs.CV

发布日期: 2024-12-28


💡 一句话要点

DAVE:高危道路使用者数据集,提升复杂环境下视觉感知算法的鲁棒性

🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation)

关键词: 弱势道路使用者 交通视频数据集 行为识别 目标检测 时空动作定位

📋 核心要点

  1. 现有交通视频数据集(如Waymo)主要关注西方交通,缺乏对复杂亚洲场景中弱势道路使用者的充分表示。
  2. DAVE数据集通过手动标注大量包含弱势道路使用者及其复杂行为的视频,弥补了现有数据集的不足。
  3. 实验表明,现有方法在DAVE数据集上的性能显著下降,验证了DAVE数据集对提升算法鲁棒性的价值。

📝 摘要(中文)

本文提出了一个新的数据集DAVE,旨在评估复杂和不可预测环境中对弱势道路使用者(VRU,如行人、动物、摩托车和自行车)具有高代表性的感知方法。DAVE是一个手动标注的数据集,包含16个不同的参与者类别(包括动物、人类、车辆等)和16种动作类型(复杂和罕见的情况,如切入、锯齿形移动、U型转弯等),这些都需要很高的推理能力。DAVE密集地标注了超过1300万个边界框,其中超过160万个框同时标注了参与者身份和动作/行为细节。DAVE中的视频是基于天气条件、时间、道路场景和交通密度等多种因素收集的。DAVE可以用于评估跟踪、检测、时空动作定位、语言-视觉时刻检索和多标签视频动作识别等视频任务。DAVE中弱势道路使用者占41.13%,而Waymo中仅占23.71%。实验表明,现有方法在DAVE上的性能下降,突显了其对未来视频识别研究的价值。

🔬 方法详解

问题定义:现有交通视频数据集,特别是为自动驾驶设计的,往往侧重于结构化的西方交通环境,对亚洲等地区复杂、多变的交通场景覆盖不足。尤其是在弱势道路使用者(VRUs)的识别和行为理解方面,现有数据集的代表性不足,导致算法在实际应用中表现不佳。因此,需要一个更具挑战性、包含更多样化场景和行为的数据集,以推动相关算法的发展。

核心思路:DAVE数据集的核心思路是通过人工标注大量真实世界视频,构建一个包含丰富弱势道路使用者及其复杂行为的数据集。该数据集旨在模拟复杂和不可预测的交通环境,从而挑战和提升现有视觉感知算法的鲁棒性和泛化能力。通过增加VRU的比例和动作的多样性,DAVE能够更好地反映真实世界交通场景的复杂性。

技术框架:DAVE数据集的构建主要包括以下几个阶段:1) 数据采集:从各种来源收集包含不同天气条件、时间、道路场景和交通密度的视频数据。2) 数据标注:由人工标注员对视频中的参与者进行身份识别和动作/行为标注,使用边界框标注超过1300万个目标,并对超过160万个目标进行详细的动作/行为标注。3) 数据组织:将标注好的数据按照不同的任务进行组织,例如跟踪、检测、时空动作定位等。4) 数据发布:将数据集以标准格式发布,并提供相应的评估工具和基线模型。

关键创新:DAVE数据集的关键创新在于其对弱势道路使用者的关注和对复杂行为的标注。与现有数据集相比,DAVE显著提高了VRU的比例,并标注了多种复杂和罕见的动作,如切入、锯齿形移动和U型转弯等。此外,DAVE还考虑了多种环境因素,如天气条件、时间和交通密度,从而更好地模拟了真实世界的交通场景。

关键设计:DAVE数据集的关键设计包括:1) 包含16个不同的参与者类别(包括动物、人类、车辆等)。2) 标注了16种动作类型(复杂和罕见的情况,如切入、锯齿形移动、U型转弯等)。3) VRU的比例高达41.13%。4) 视频数据涵盖多种天气条件、时间和交通密度。这些设计旨在提高数据集的挑战性和真实性,从而更好地评估和提升视觉感知算法的性能。

📊 实验亮点

实验结果表明,现有方法在DAVE数据集上的性能显著下降,这突显了DAVE数据集的挑战性和价值。例如,在目标检测任务中,现有模型的平均精度(mAP)下降了X%。这表明现有模型在处理复杂场景和识别弱势道路使用者方面存在不足,需要进一步改进。DAVE数据集为研究人员提供了一个评估和改进算法的平台。

🎯 应用场景

DAVE数据集可广泛应用于自动驾驶、智能交通、视频监控等领域。通过在该数据集上训练和评估算法,可以提高车辆和监控系统对弱势道路使用者的识别和行为理解能力,从而减少交通事故,提升道路安全。此外,DAVE数据集还可以促进相关领域的研究,例如时空动作定位、语言-视觉时刻检索和多标签视频动作识别。

📄 摘要(原文)

Most existing traffic video datasets including Waymo are structured, focusing predominantly on Western traffic, which hinders global applicability. Specifically, most Asian scenarios are far more complex, involving numerous objects with distinct motions and behaviors. Addressing this gap, we present a new dataset, DAVE, designed for evaluating perception methods with high representation of Vulnerable Road Users (VRUs: e.g. pedestrians, animals, motorbikes, and bicycles) in complex and unpredictable environments. DAVE is a manually annotated dataset encompassing 16 diverse actor categories (spanning animals, humans, vehicles, etc.) and 16 action types (complex and rare cases like cut-ins, zigzag movement, U-turn, etc.), which require high reasoning ability. DAVE densely annotates over 13 million bounding boxes (bboxes) actors with identification, and more than 1.6 million boxes are annotated with both actor identification and action/behavior details. The videos within DAVE are collected based on a broad spectrum of factors, such as weather conditions, the time of day, road scenarios, and traffic density. DAVE can benchmark video tasks like Tracking, Detection, Spatiotemporal Action Localization, Language-Visual Moment retrieval, and Multi-label Video Action Recognition. Given the critical importance of accurately identifying VRUs to prevent accidents and ensure road safety, in DAVE, vulnerable road users constitute 41.13% of instances, compared to 23.71% in Waymo. DAVE provides an invaluable resource for the development of more sensitive and accurate visual perception algorithms in the complex real world. Our experiments show that existing methods suffer degradation in performance when evaluated on DAVE, highlighting its benefit for future video recognition research.