LongTail Driving Scenarios with Reasoning Traces: The KITScenes LongTail Dataset

📄 arXiv: 2603.23607 📥 PDF

作者: Royden Wagner, Omer Sahin Tas, Jaime Villa, Felix Hauser, Yinzhe Shen, Marlon Steiner, Dominik Strutz, Carlos Fernandez, Christian Kinzig, Guillermo S. Guitierrez-Cabello, Hendrik Königshof, Fabian Immel, Richard Schwarzkopf, Nils Alexander Rack, Kevin Rösch, Kaiwen Wang, Jan-Hendrik Pauls, Martin Lauer, Igor Gilitschenski, Holger Caesar, Christoph Stiller

分类: cs.CV, cs.RO

发布日期: 2026-04-07


💡 一句话要点

KITScenes LongTail数据集:提供推理轨迹的长尾驾驶场景数据集,用于端到端驾驶。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自动驾驶 长尾学习 多模态数据 推理轨迹 上下文学习

📋 核心要点

  1. 自动驾驶面临长尾场景泛化难题,现有方法难以有效处理罕见驾驶事件。
  2. KITScenes LongTail数据集提供多视角视频、轨迹、指令和推理轨迹,支持上下文学习和少样本泛化。
  3. 该数据集通过指令遵循和语义一致性评估,为多模态模型提供基准,并包含多语言推理轨迹。

📝 摘要(中文)

本文介绍了一个新的数据集,专门用于解决自动驾驶中泛化到罕见场景的根本挑战,特别是长尾驾驶事件。该数据集名为KITScenes LongTail,提供了多视角视频数据、轨迹、高层指令和详细的推理轨迹,旨在促进上下文学习和少样本泛化。该数据集为多模态模型(如VLM和VLA)提供了一个基准,超越了安全性和舒适性指标,评估了指令遵循和模型输出之间的语义一致性。数据集包含由具有不同文化背景的领域专家提供的英语、西班牙语和中文的多语言推理轨迹。因此,该数据集是研究不同形式的推理如何影响驾驶能力的一个独特资源。

🔬 方法详解

问题定义:自动驾驶系统在真实世界中面临着长尾分布的挑战,即罕见但关键的驾驶场景出现频率低,导致模型难以学习和泛化。现有方法通常依赖于大量常见场景的数据进行训练,对长尾场景的泛化能力不足,容易导致安全问题。

核心思路:本文的核心思路是构建一个专门针对长尾驾驶场景的数据集,并提供详细的推理轨迹,以帮助模型理解场景背后的逻辑和原因。通过提供多模态数据(视频、轨迹、指令)和多语言推理,促进模型进行上下文学习和少样本泛化,从而提高在罕见场景下的驾驶能力。

技术框架:KITScenes LongTail数据集包含以下几个关键组成部分:1) 多视角视频数据:提供丰富的视觉信息,捕捉不同角度的场景细节。2) 车辆轨迹数据:记录车辆的运动轨迹,为模型提供运动规划的依据。3) 高层指令:提供驾驶任务的指令,例如“左转”、“避让行人”等。4) 多语言推理轨迹:由领域专家提供的,解释如何根据场景信息做出驾驶决策的推理过程,包含英语、西班牙语和中文。该数据集可以用于训练端到端驾驶模型,并评估模型在指令遵循和语义一致性方面的表现。

关键创新:该数据集的关键创新在于:1) 专注于长尾驾驶场景,填补了现有数据集的空白。2) 提供详细的多语言推理轨迹,帮助模型理解场景背后的逻辑。3) 结合多模态数据和高层指令,促进模型进行上下文学习和少样本泛化。4) 提供指令遵循和语义一致性评估指标,更全面地评估模型的驾驶能力。

关键设计:数据集中的推理轨迹由具有不同文化背景的领域专家提供,以确保推理的多样性和全面性。数据集的构建过程中,对长尾场景进行了仔细筛选和标注,以保证数据的质量和代表性。评估指标的设计考虑了指令遵循的准确性和模型输出的语义一致性,以更全面地评估模型的驾驶能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

KITScenes LongTail数据集包含丰富的长尾驾驶场景数据和多语言推理轨迹,为多模态模型提供了一个新的基准。该数据集超越了传统的安全性和舒适性指标,增加了指令遵循和语义一致性评估,能够更全面地评估模型的驾驶能力。该数据集的发布将促进自动驾驶领域在长尾场景泛化方面的研究进展。

🎯 应用场景

该研究成果可应用于自动驾驶系统的开发与测试,尤其是在提高系统应对罕见和复杂驾驶场景的能力方面。通过利用该数据集训练的模型,可以提升自动驾驶汽车在真实世界中的安全性和可靠性。此外,该数据集也可用于研究不同文化背景下的驾驶行为差异,为自动驾驶系统的本地化适配提供参考。

📄 摘要(原文)

In real-world domains such as self-driving, generalization to rare scenarios remains a fundamental challenge. To address this, we introduce a new dataset designed for end-to-end driving that focuses on long-tail driving events. We provide multi-view video data, trajectories, high-level instructions, and detailed reasoning traces, facilitating in-context learning and few-shot generalization. The resulting benchmark for multimodal models, such as VLMs and VLAs, goes beyond safety and comfort metrics by evaluating instruction following and semantic coherence between model outputs. The multilingual reasoning traces in English, Spanish, and Chinese are from domain experts with diverse cultural backgrounds. Thus, our dataset is a unique resource for studying how different forms of reasoning affect driving competence. Our dataset is available at:this https URL