WOD-E2E: Waymo Open Dataset for End-to-End Driving in Challenging Long-tail Scenarios

📄 arXiv: 2510.26125v3 📥 PDF

作者: Runsheng Xu, Hubert Lin, Wonseok Jeon, Hao Feng, Yuliang Zou, Liting Sun, John Gorman, Ekaterina Tolstaya, Sarah Tang, Brandyn White, Ben Sapp, Mingxing Tan, Jyh-Jing Hwang, Dragomir Anguelov

分类: cs.CV, cs.AI

发布日期: 2025-10-30 (更新: 2025-11-13)


💡 一句话要点

WOD-E2E:针对端到端驾驶中长尾场景的Waymo开放数据集

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 端到端驾驶 长尾场景 自动驾驶 数据集 评估指标 Waymo开放数据集 Rater Feedback Score

📋 核心要点

  1. 现有端到端驾驶基准主要集中于常见场景,无法充分评估系统在罕见、复杂长尾场景下的性能。
  2. 论文提出WOD-E2E数据集,包含大量长尾驾驶场景数据,并设计了新的评估指标RFS,以更准确地评估驾驶性能。
  3. WOD-E2E数据集已发布验证集标签,并用于2025年WOD-E2E挑战赛,旨在推动通用、鲁棒和安全的自动驾驶研究。

📝 摘要(中文)

基于视觉的端到端(E2E)驾驶因其可扩展性以及与多模态大型语言模型(MLLM)的协同作用而引起了研究界的广泛关注。然而,当前的E2E驾驶基准主要集中于常规场景,未能充分测试这些系统的真正潜力。此外,现有的开环评估指标通常无法捕捉驾驶的多模态特性,也无法有效评估长尾场景下的性能。为了解决这些差距,我们推出了Waymo端到端驾驶开放数据集(WOD-E2E)。WOD-E2E包含4021个驾驶片段(约12小时),专门为具有挑战性的长尾场景而设计,这些场景在日常生活中的发生频率低于0.03%。具体而言,WOD-E2E中的每个片段都包含高级路线信息、车辆自身状态以及来自8个周围摄像头的360度摄像头视图。为了评估E2E驾驶在这些长尾情况下的性能,我们提出了一种新的开环评估指标:评分员反馈分数(RFS)。与测量预测路径点与日志之间距离的传统指标不同,RFS衡量预测轨迹与评分员标注的轨迹偏好标签的匹配程度。我们已经发布了所有WOD-E2E验证集片段的评分员偏好标签,而保留的测试集标签已用于2025年WOD-E2E挑战赛。通过我们的工作,我们旨在促进最先进的研究,以开发能够处理复杂现实世界情况的通用、鲁棒和安全的端到端自动驾驶代理。

🔬 方法详解

问题定义:现有端到端驾驶方法在长尾场景下的泛化能力不足,现有数据集和评估指标难以有效评估模型在这些场景下的表现。痛点在于缺乏足够数量和多样性的长尾数据,以及缺乏能够反映人类驾驶偏好的评估指标。

核心思路:论文的核心思路是构建一个包含大量长尾场景的数据集,并设计一种新的评估指标,该指标能够更好地反映人类驾驶员在这些场景下的偏好。通过这种方式,可以更有效地训练和评估端到端驾驶模型在复杂现实世界场景下的性能。

技术框架:WOD-E2E数据集包含4021个驾驶片段,每个片段包含高级路线信息、车辆自身状态以及来自8个摄像头的360度视图。评估指标RFS通过比较预测轨迹与人工标注的轨迹偏好标签来评估性能。整体流程是:输入驾驶场景数据,模型预测轨迹,然后使用RFS指标评估预测轨迹与人工标注轨迹的匹配程度。

关键创新:论文的关键创新在于构建了专门针对长尾场景的WOD-E2E数据集,并提出了新的评估指标RFS。RFS指标与传统指标不同,它直接衡量预测轨迹与人类驾驶偏好的匹配程度,从而更准确地反映了驾驶性能。

关键设计:WOD-E2E数据集中的长尾场景数据是通过精心筛选得到的,确保了数据的多样性和挑战性。RFS指标的设计考虑了人类驾驶员在不同场景下的偏好,通过人工标注轨迹偏好标签来指导评估过程。具体的RFS计算方法未知,需要在论文中查找更详细的信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文构建了包含4021个驾驶片段的WOD-E2E数据集,专门针对长尾场景。提出了新的评估指标RFS,该指标通过衡量预测轨迹与人工标注轨迹偏好的匹配程度来评估性能。验证集上的RFS指标结果未知,需要在论文中查找更详细的信息。该数据集已用于2025年WOD-E2E挑战赛。

🎯 应用场景

该研究成果可应用于自动驾驶系统的开发和测试,尤其是在处理复杂、罕见场景时。通过使用WOD-E2E数据集和RFS评估指标,可以更有效地训练和评估自动驾驶系统在真实世界中的安全性和可靠性。此外,该数据集和评估方法也有助于推动自动驾驶技术的标准化和规范化。

📄 摘要(原文)

Vision-based end-to-end (E2E) driving has garnered significant interest in the research community due to its scalability and synergy with multimodal large language models (MLLMs). However, current E2E driving benchmarks primarily feature nominal scenarios, failing to adequately test the true potential of these systems. Furthermore, existing open-loop evaluation metrics often fall short in capturing the multi-modal nature of driving or effectively evaluating performance in long-tail scenarios. To address these gaps, we introduce the Waymo Open Dataset for End-to-End Driving (WOD-E2E). WOD-E2E contains 4,021 driving segments (approximately 12 hours), specifically curated for challenging long-tail scenarios that that are rare in daily life with an occurring frequency of less than 0.03%. Concretely, each segment in WOD-E2E includes the high-level routing information, ego states, and 360-degree camera views from 8 surrounding cameras. To evaluate the E2E driving performance on these long-tail situations, we propose a novel open-loop evaluation metric: Rater Feedback Score (RFS). Unlike conventional metrics that measure the distance between predicted way points and the logs, RFS measures how closely the predicted trajectory matches rater-annotated trajectory preference labels. We have released rater preference labels for all WOD-E2E validation set segments, while the held out test set labels have been used for the 2025 WOD-E2E Challenge. Through our work, we aim to foster state of the art research into generalizable, robust, and safe end-to-end autonomous driving agents capable of handling complex real-world situations.