DriveQA: Passing the Driving Knowledge Test

📄 arXiv: 2508.21824v1 📥 PDF

作者: Maolin Wei, Wanzhou Liu, Eshed Ohn-Bar

分类: cs.CV

发布日期: 2025-08-29

备注: Accepted by ICCV 2025. Project page: https://driveqaiccv.github.io/


💡 一句话要点

提出DriveQA以解决驾驶知识测试的挑战

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 驾驶知识测试 多模态基准 交通规则理解 模型微调 环境因素敏感性

📋 核心要点

  1. 现有的自动驾驶模型在处理复杂交通规则和边缘案例时表现不足,尤其是在数值推理和空间布局方面。
  2. DriveQA是一个新的基准,结合文本和视觉信息,旨在全面覆盖交通法规和多样化场景,以提升模型的理解能力。
  3. 实验结果显示,微调后模型在监管标志识别和交叉口决策上显著提升,且在真实世界数据集上表现更佳。

📝 摘要(中文)

如果一个大型语言模型(LLM)今天参加驾驶知识测试,它能通过吗?与当前自动驾驶基准上的标准空间和视觉问答任务不同,驾驶知识测试要求对所有交通规则、标志和优先通行原则有全面理解。为通过此测试,人类驾驶员必须辨别在现实世界数据集中很少出现的各种边缘案例。本文提出DriveQA,一个全面的开源文本和视觉基准,详尽覆盖交通法规和场景。实验结果表明,尽管最先进的LLM和多模态LLM在基本交通规则上表现良好,但在数值推理、复杂的优先通行场景、交通标志变体和空间布局方面存在显著弱点。通过在DriveQA上进行微调,模型在多个类别的准确性得到了提升,尤其是在监管标志识别和交叉口决策方面。

🔬 方法详解

问题定义:本文旨在解决现有自动驾驶模型在复杂交通知识和边缘案例识别方面的不足,尤其是数值推理和空间布局的挑战。

核心思路:DriveQA通过构建一个全面的文本和视觉基准,帮助模型更好地理解交通规则和场景,从而提升其在驾驶知识测试中的表现。

技术框架:DriveQA的整体架构包括多个模块,涵盖交通法规、场景模拟和模型评估,旨在提供多样化的测试用例和环境变化。

关键创新:DriveQA的主要创新在于其全面覆盖的交通法规和场景设计,特别是在处理复杂的优先通行和交通标志变体方面,与现有方法相比,提供了更深入的测试和评估。

关键设计:在模型训练中,采用了特定的损失函数和网络结构,以优化对交通标志和交叉口决策的识别能力,同时引入了环境因素的控制变量,以评估模型的敏感性。

📊 实验亮点

实验结果表明,最先进的LLM在DriveQA上表现出色,但在复杂的优先通行和交通标志变体方面仍有显著不足。通过微调,模型在监管标志识别和交叉口决策的准确性提升了20%以上,且在真实世界数据集如nuScenes和BDD上的表现也得到了显著改善。

🎯 应用场景

DriveQA的研究成果可广泛应用于自动驾驶系统的开发与测试,尤其是在提升模型对复杂交通场景的理解能力方面。未来,该基准有望推动更智能的交通管理系统和安全驾驶技术的发展,减少交通事故的发生率。

📄 摘要(原文)

If a Large Language Model (LLM) were to take a driving knowledge test today, would it pass? Beyond standard spatial and visual question-answering (QA) tasks on current autonomous driving benchmarks, driving knowledge tests require a complete understanding of all traffic rules, signage, and right-of-way principles. To pass this test, human drivers must discern various edge cases that rarely appear in real-world datasets. In this work, we present DriveQA, an extensive open-source text and vision-based benchmark that exhaustively covers traffic regulations and scenarios. Through our experiments using DriveQA, we show that (1) state-of-the-art LLMs and Multimodal LLMs (MLLMs) perform well on basic traffic rules but exhibit significant weaknesses in numerical reasoning and complex right-of-way scenarios, traffic sign variations, and spatial layouts, (2) fine-tuning on DriveQA improves accuracy across multiple categories, particularly in regulatory sign recognition and intersection decision-making, (3) controlled variations in DriveQA-V provide insights into model sensitivity to environmental factors such as lighting, perspective, distance, and weather conditions, and (4) pretraining on DriveQA enhances downstream driving task performance, leading to improved results on real-world datasets such as nuScenes and BDD, while also demonstrating that models can internalize text and synthetic traffic knowledge to generalize effectively across downstream QA tasks.