Robust Driving QA through Metadata-Grounded Context and Task-Specific Prompts

📄 arXiv: 2510.19001v1 📥 PDF

作者: Seungjun Yu, Junsung Park, Youngsun Lim, Hyunjung Shim

分类: cs.CV, cs.AI, cs.RO

发布日期: 2025-10-21


💡 一句话要点

提出基于元数据和任务特定提示的驾驶场景问答系统,提升鲁棒性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自动驾驶 视觉问答 多模态学习 提示工程 场景理解

📋 核心要点

  1. 现有驾驶场景问答系统在高层次推理和鲁棒性方面存在不足,难以应对复杂环境和视觉干扰。
  2. 利用场景元数据和任务特定提示,增强大型多模态语言模型在驾驶场景下的上下文理解和推理能力。
  3. 实验表明,该方法在驾驶问答基准上显著优于基线模型,并在视觉损坏情况下保持高准确率。

📝 摘要(中文)

本文提出了一种用于自动驾驶的双阶段视觉-语言问答系统,旨在回答高层次的感知、预测和规划问题。在第一阶段,大型多模态LLM(Qwen2.5-VL-32B)以六个摄像头输入、短时历史窗口和带有少量样本的思维链提示为条件。自洽集成(多个采样的推理链)进一步提高了答案的可靠性。在第二阶段,我们使用nuScenes场景元数据(对象注释、自车状态等)和类别特定的问题指令(针对感知、预测、规划任务的单独提示)来增强提示。在驾驶问答基准上的实验表明,我们的方法显著优于基线Qwen2.5模型。例如,在第一阶段使用5个历史帧和10-shot提示可产生65.1%的总体准确率(而零样本为62.61%);应用自洽性将其提高到66.85%。第二阶段实现了67.37%的总体准确率。值得注意的是,该系统在严重的视觉损坏下仍保持96%的准确率。这些结果表明,精心设计的提示和上下文 grounding 可以极大地增强使用预训练视觉-语言模型进行的高层次驾驶问答。

🔬 方法详解

问题定义:论文旨在解决自动驾驶场景下的高层次问答问题,包括感知、预测和规划。现有方法通常难以有效利用场景上下文信息,并且在面对视觉噪声时鲁棒性较差。这导致系统难以准确理解驾驶环境并做出合理的决策。

核心思路:论文的核心思路是通过两阶段的提示工程和上下文增强来提升视觉-语言模型在驾驶场景下的问答能力。第一阶段利用思维链提示和自洽集成来提高推理的准确性和可靠性。第二阶段则通过引入场景元数据和任务特定提示,增强模型对场景的理解和对不同任务的适应性。

技术框架:该系统采用两阶段的框架。第一阶段,使用Qwen2.5-VL-32B模型,输入包括六个摄像头图像、历史帧和思维链提示。通过自洽集成,生成多个答案并选择最一致的答案。第二阶段,在第一阶段的基础上,将nuScenes场景元数据(如对象标注、自车状态)和任务特定提示(针对感知、预测、规划分别设计)加入到提示中,进一步提升问答性能。

关键创新:该论文的关键创新在于将场景元数据和任务特定提示融入到大型多模态语言模型的问答流程中。这种方法能够有效地利用场景的结构化信息,并针对不同的驾驶任务进行优化,从而显著提升了问答的准确性和鲁棒性。

关键设计:在第一阶段,使用了少量样本(few-shot)的思维链提示,引导模型进行逐步推理。自洽集成通过采样多个推理链,并选择最一致的答案来提高可靠性。在第二阶段,针对感知、预测和规划任务,分别设计了不同的提示模板,并结合nuScenes场景元数据,为模型提供更丰富的上下文信息。具体参数设置和损失函数信息未知。

🖼️ 关键图片

img_0

📊 实验亮点

实验结果表明,该方法在驾驶问答基准上显著优于基线Qwen2.5模型。使用5个历史帧和10-shot提示的第一阶段实现了65.1%的总体准确率,而零样本为62.61%。应用自洽性后,准确率提升至66.85%。第二阶段进一步提升至67.37%。更重要的是,该系统在严重的视觉损坏下仍保持96%的准确率,展示了其强大的鲁棒性。

🎯 应用场景

该研究成果可应用于自动驾驶系统的决策模块,提升其对复杂驾驶场景的理解和推理能力。通过更准确的问答,系统可以更好地感知周围环境、预测其他车辆的行驶轨迹,并制定合理的行驶计划。此外,该技术还可用于驾驶员辅助系统,提供更智能的驾驶建议和警示。

📄 摘要(原文)

We present a two-phase vision-language QA system for autonomous driving that answers high-level perception, prediction, and planning questions. In Phase-1, a large multimodal LLM (Qwen2.5-VL-32B) is conditioned on six-camera inputs, a short temporal window of history, and a chain-of-thought prompt with few-shot exemplars. A self-consistency ensemble (multiple sampled reasoning chains) further improves answer reliability. In Phase-2, we augment the prompt with nuScenes scene metadata (object annotations, ego-vehicle state, etc.) and category-specific question instructions (separate prompts for perception, prediction, planning tasks). In experiments on a driving QA benchmark, our approach significantly outperforms the baseline Qwen2.5 models. For example, using 5 history frames and 10-shot prompting in Phase-1 yields 65.1% overall accuracy (vs.62.61% with zero-shot); applying self-consistency raises this to 66.85%. Phase-2 achieves 67.37% overall. Notably, the system maintains 96% accuracy under severe visual corruption. These results demonstrate that carefully engineered prompts and contextual grounding can greatly enhance high-level driving QA with pretrained vision-language models.