An interactive enhanced driving dataset for autonomous driving

📄 arXiv: 2602.20575v1 📥 PDF

作者: Haojie Feng, Peizhi Zhang, Mengjie Tian, Xinrui Zhang, Zhuoren Li, Junpeng Huang, Xiurong Wang, Junfan Zhu, Jianzhou Wang, Dongxiao Yin, Lu Xiong

分类: cs.CV

发布日期: 2026-02-24


💡 一句话要点

提出交互增强驾驶数据集IEDD,解决自动驾驶VLA模型数据稀疏和多模态对齐不足问题。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自动驾驶 交互式驾驶 数据集 视觉语言模型 多模态对齐

📋 核心要点

  1. 现有自动驾驶VLA模型受限于交互场景数据的稀疏性以及多模态信息对齐不足。
  2. 论文核心在于构建大规模交互式驾驶数据集IEDD,并设计指标量化交互过程。
  3. 通过在IEDD上评估主流VLM,验证了数据集在提升自动驾驶模型推理能力上的价值。

📝 摘要(中文)

本文提出交互增强驾驶数据集(IEDD),旨在解决自动驾驶向完全自动化演进过程中,视觉-语言-动作(VLA)模型因交互场景稀疏和现有数据中多模态对齐不足而受限的问题。我们开发了一个可扩展的流程,基于交互轨迹从自然驾驶数据中挖掘百万级别的交互片段,并设计了量化交互过程的指标。此外,通过生成语义动作与结构化语言严格对齐的合成鸟瞰图(BEV)视频,构建了IEDD-VQA数据集。基准测试结果评估了十个主流视觉语言模型(VLM),证明了该数据集在评估和微调自动驾驶模型的推理能力方面的重用价值。

🔬 方法详解

问题定义:现有自动驾驶数据集在交互场景覆盖方面存在稀疏性,且多模态数据(视觉、语言、动作)之间的对齐程度不足,这限制了VLA模型的发展。痛点在于缺乏足够且高质量的交互数据来训练和评估自动驾驶模型的交互能力。

核心思路:论文的核心思路是构建一个大规模、高质量的交互增强驾驶数据集IEDD。通过从自然驾驶数据中挖掘交互片段,并结合合成数据生成技术,来扩充交互场景的数据量,并保证多模态数据的严格对齐。这样设计的目的是为了克服现有数据集的局限性,促进VLA模型在自动驾驶领域的应用。

技术框架:IEDD的构建流程主要包含以下几个阶段:1) 交互片段挖掘:基于交互轨迹从自然驾驶数据中挖掘潜在的交互片段。2) 交互过程量化:设计指标来量化交互过程,例如交互强度、交互频率等。3) IEDD-VQA构建:通过生成合成的鸟瞰图(BEV)视频,并结合结构化语言描述,构建IEDD-VQA数据集,保证语义动作与语言的严格对齐。4) 基准测试:在IEDD上评估主流VLM,验证数据集的有效性。

关键创新:论文的关键创新在于提出了一个可扩展的交互式驾驶数据挖掘和合成流程,能够从大规模自然驾驶数据中提取并生成高质量的交互场景数据。此外,论文还设计了量化交互过程的指标,为数据集的构建和评估提供了理论依据。与现有方法相比,IEDD更加关注交互场景,并强调多模态数据的严格对齐。

关键设计:论文的关键设计包括:1) 交互轨迹定义:定义了交互轨迹的特征,例如车辆之间的距离、相对速度等,用于挖掘交互片段。2) 交互指标设计:设计了量化交互过程的指标,例如交互强度、交互频率等,用于评估交互片段的质量。3) BEV视频生成:使用合成数据生成技术,生成语义动作与结构化语言严格对齐的BEV视频,用于构建IEDD-VQA数据集。具体的参数设置、损失函数、网络结构等技术细节在论文中未详细描述,属于未知信息。

📊 实验亮点

论文通过在IEDD数据集上对十个主流VLM进行基准测试,验证了数据集的有效性。具体的性能数据和提升幅度在摘要中未给出,属于未知信息。但实验结果表明,IEDD数据集能够有效评估和微调自动驾驶模型的推理能力,具有重要的研究价值。

🎯 应用场景

该研究成果可广泛应用于自动驾驶系统的开发和测试,尤其是在提升车辆的交互能力和决策能力方面。通过使用IEDD数据集训练VLA模型,可以提高自动驾驶车辆在复杂交通环境中的安全性、可靠性和智能化水平。未来,该数据集还可以用于开发更高级的自动驾驶功能,例如人机协作驾驶、个性化驾驶等。

📄 摘要(原文)

The evolution of autonomous driving towards full automation demands robust interactive capabilities; however, the development of Vision-Language-Action (VLA) models is constrained by the sparsity of interactive scenarios and inadequate multimodal alignment in existing data. To this end, this paper proposes the Interactive Enhanced Driving Dataset (IEDD). We develop a scalable pipeline to mine million-level interactive segments from naturalistic driving data based on interactive trajectories, and design metrics to quantify the interaction processes. Furthermore, the IEDD-VQA dataset is constructed by generating synthetic Bird's Eye View (BEV) videos where semantic actions are strictly aligned with structured language. Benchmark results evaluating ten mainstream Vision Language Models (VLMs) are provided to demonstrate the dataset's reuse value in assessing and fine-tuning the reasoning capabilities of autonomous driving models.