DrivingDojo Dataset: Advancing Interactive and Knowledge-Enriched Driving World Model
作者: Yuqi Wang, Ke Cheng, Jiawei He, Qitai Wang, Hengchen Dai, Yuntao Chen, Fei Xia, Zhaoxiang Zhang
分类: cs.CV, cs.AI
发布日期: 2024-10-14
备注: Accepted to NeurIPS 2024. Project page: https://drivingdojo.github.io/
💡 一句话要点
DrivingDojo:提出交互式和知识增强的驾驶世界模型数据集,促进复杂驾驶场景建模。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 驾驶数据集 世界模型 自动驾驶 交互式学习 动作指令跟随
📋 核心要点
- 现有驾驶数据集视频多样性不足,限制了驾驶世界模型对复杂驾驶动态的建模能力。
- DrivingDojo数据集旨在提供包含完整驾驶操作、多智能体交互和开放世界知识的视频,用于训练交互式世界模型。
- 论文定义了动作指令跟随(AIF)基准,实验证明DrivingDojo数据集能有效提升动作控制的未来预测性能。
📝 摘要(中文)
驾驶世界模型因其对复杂物理动态的建模能力而备受关注。然而,由于当前驾驶数据集的视频多样性有限,其卓越的建模能力尚未得到充分发挥。本文介绍了DrivingDojo,这是第一个专门为训练具有复杂驾驶动态的交互式世界模型而量身定制的数据集。我们的数据集包含具有完整驾驶操作、多样化的多智能体交互和丰富的开放世界驾驶知识的视频片段,为未来的世界模型开发奠定了基础。我们进一步为世界模型定义了一个动作指令跟随(AIF)基准,并证明了所提出的数据集在生成动作控制的未来预测方面的优越性。
🔬 方法详解
问题定义:现有驾驶数据集在视频内容的多样性上存在局限性,无法充分训练和评估驾驶世界模型在复杂驾驶场景下的交互能力和知识推理能力。这阻碍了世界模型在自动驾驶领域的进一步发展。
核心思路:论文的核心思路是构建一个包含更丰富、更真实的驾驶场景的数据集,即DrivingDojo。该数据集不仅包含各种驾驶操作,还涵盖了多智能体之间的复杂交互,并融入了开放世界的驾驶知识,从而为训练更强大的驾驶世界模型提供数据基础。
技术框架:DrivingDojo数据集的构建主要包括以下几个方面:首先,收集包含各种驾驶操作的视频片段,例如变道、转弯、超车等。其次,记录多智能体之间的交互行为,例如车辆之间的协同驾驶、避让等。此外,数据集还包含了丰富的开放世界驾驶知识,例如交通规则、道路标志等。最后,论文定义了一个动作指令跟随(AIF)基准,用于评估世界模型在DrivingDojo数据集上的性能。
关键创新:DrivingDojo数据集的关键创新在于其视频内容的多样性和复杂性。与现有数据集相比,DrivingDojo数据集包含了更完整的驾驶操作、更丰富的多智能体交互和更全面的开放世界驾驶知识。这使得DrivingDojo数据集能够更好地训练和评估驾驶世界模型在复杂驾驶场景下的性能。
关键设计:数据集的构建过程中,需要仔细设计场景和选择合适的传感器配置,以保证数据的质量和多样性。动作指令跟随(AIF)基准的设计需要考虑如何有效地评估世界模型在生成动作控制的未来预测方面的能力。具体的技术细节(例如,传感器类型、数据标注方法、AIF基准的评估指标等)在论文中可能有所描述,但此处无法详细展开。
🖼️ 关键图片
📊 实验亮点
论文通过动作指令跟随(AIF)基准测试,验证了DrivingDojo数据集在训练世界模型方面的优越性。实验结果表明,在DrivingDojo数据集上训练的世界模型能够更准确地预测未来的驾驶场景,并更好地执行动作指令。具体的性能数据和提升幅度需要在论文中查找。
🎯 应用场景
DrivingDojo数据集可用于训练和评估自动驾驶系统中的世界模型,提高其对复杂驾驶场景的理解和预测能力。这有助于提升自动驾驶系统的安全性、可靠性和智能化水平,加速自动驾驶技术的落地应用。此外,该数据集还可以用于研究人机协作驾驶、驾驶行为分析等领域。
📄 摘要(原文)
Driving world models have gained increasing attention due to their ability to model complex physical dynamics. However, their superb modeling capability is yet to be fully unleashed due to the limited video diversity in current driving datasets. We introduce DrivingDojo, the first dataset tailor-made for training interactive world models with complex driving dynamics. Our dataset features video clips with a complete set of driving maneuvers, diverse multi-agent interplay, and rich open-world driving knowledge, laying a stepping stone for future world model development. We further define an action instruction following (AIF) benchmark for world models and demonstrate the superiority of the proposed dataset for generating action-controlled future predictions.