Hard Cases Detection in Motion Prediction by Vision-Language Foundation Models

📄 arXiv: 2405.20991v1 📥 PDF

作者: Yi Yang, Qingwen Zhang, Kei Ikemura, Nazre Batool, John Folkesson

分类: cs.CV, cs.LG

发布日期: 2024-05-31

备注: IEEE Intelligent Vehicles Symposium (IV) 2024

🔗 代码/项目: GITHUB


💡 一句话要点

利用视觉-语言基础模型检测运动预测中的困难场景,提升自动驾驶安全性。

🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自动驾驶 困难场景检测 视觉-语言模型 运动预测 零样本学习 数据选择 GPT-4v

📋 核心要点

  1. 自动驾驶面临异常交通参与者、极端天气等困难场景,现有方法缺乏足够鲁棒性,安全风险高。
  2. 利用视觉-语言基础模型(VLMs)的零样本能力,构建pipeline检测运动预测中的困难场景。
  3. 实验表明,该方法能有效识别困难场景,并能通过数据选择提高运动预测模型的训练效率。

📝 摘要(中文)

本文旨在解决自动驾驶中困难场景的检测问题,例如异常道路使用者、极端天气条件和复杂的交通交互。为了确保安全,有效检测和管理这些场景至关重要。然而,这些案例的稀有性和高风险性需要大量多样化的数据集来训练鲁棒的模型。视觉-语言基础模型(VLMs)在大量数据集上训练后,展现出了卓越的零样本能力。本文探索了VLMs在检测自动驾驶中困难场景的潜力。我们证明了GPT-4v等VLMs在交通参与者运动预测中检测agent和scenario级别困难场景的能力。我们引入了一个可行的pipeline,该pipeline将带有设计提示的连续图像帧输入VLMs,有效地识别具有挑战性的agent或scenario,并通过现有的预测模型进行验证。此外,通过利用VLMs对困难场景的检测,我们通过对GPT建议的训练样本执行数据选择,进一步提高了现有运动预测pipeline的训练效率。我们在NuScenes数据集上展示了我们的pipeline结合VLMs与最先进方法的有效性和可行性。

🔬 方法详解

问题定义:自动驾驶系统在面对罕见、高风险的困难场景时,例如异常行为的交通参与者、极端天气条件或复杂的交通交互,现有的运动预测模型往往表现不佳。这些场景的数据稀缺,难以训练出足够鲁棒的模型,导致安全隐患。因此,如何有效检测这些困难场景是亟待解决的问题。

核心思路:本文的核心思路是利用视觉-语言基础模型(VLMs)强大的零样本学习能力,直接从图像中识别困难场景。VLMs在海量数据上预训练,具备了对复杂场景的理解能力,无需针对特定困难场景进行额外训练。通过精心设计的提示(prompts),引导VLMs关注图像中的关键信息,从而判断场景的难度。

技术框架:该方法构建了一个包含VLMs的困难场景检测pipeline。首先,输入连续的图像帧序列。然后,通过设计的提示(prompts)将图像信息输入VLMs,例如GPT-4v。VLMs根据图像内容和提示,判断场景或特定交通参与者的难度,输出困难场景的检测结果。最后,利用现有的运动预测模型对VLMs的判断结果进行验证,并可进一步利用VLMs的检测结果进行数据选择,优化运动预测模型的训练。

关键创新:该方法最重要的创新点在于将视觉-语言基础模型应用于自动驾驶的困难场景检测。与传统的基于规则或机器学习的方法相比,该方法无需人工标注大量困难场景数据,利用VLMs的零样本能力即可实现有效的检测。此外,该方法还探索了利用VLMs的检测结果来指导数据选择,从而提高运动预测模型的训练效率。

关键设计:关键设计包括:1) 精心设计的提示(prompts),用于引导VLMs关注图像中的关键信息,例如交通参与者的行为、环境条件等。2) 利用现有的运动预测模型对VLMs的判断结果进行验证,确保检测的准确性。3) 基于VLMs的检测结果进行数据选择,优先选择VLMs认为是困难的场景进行训练,从而提高运动预测模型的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法能够有效地检测NuScenes数据集中的困难场景。通过将GPT-4v与精心设计的提示相结合,该方法能够准确识别具有挑战性的交通参与者和场景。此外,利用VLMs的检测结果进行数据选择,可以显著提高运动预测模型的训练效率,在相同训练时间内获得更好的性能。

🎯 应用场景

该研究成果可应用于自动驾驶系统的安全模块,提升系统对复杂和危险场景的感知能力,降低事故风险。此外,该方法还可用于自动驾驶数据集的构建,自动筛选出具有挑战性的场景,提高数据集的质量和多样性。未来,该技术有望扩展到其他机器人应用领域,例如智能监控、灾难救援等。

📄 摘要(原文)

Addressing hard cases in autonomous driving, such as anomalous road users, extreme weather conditions, and complex traffic interactions, presents significant challenges. To ensure safety, it is crucial to detect and manage these scenarios effectively for autonomous driving systems. However, the rarity and high-risk nature of these cases demand extensive, diverse datasets for training robust models. Vision-Language Foundation Models (VLMs) have shown remarkable zero-shot capabilities as being trained on extensive datasets. This work explores the potential of VLMs in detecting hard cases in autonomous driving. We demonstrate the capability of VLMs such as GPT-4v in detecting hard cases in traffic participant motion prediction on both agent and scenario levels. We introduce a feasible pipeline where VLMs, fed with sequential image frames with designed prompts, effectively identify challenging agents or scenarios, which are verified by existing prediction models. Moreover, by taking advantage of this detection of hard cases by VLMs, we further improve the training efficiency of the existing motion prediction pipeline by performing data selection for the training samples suggested by GPT. We show the effectiveness and feasibility of our pipeline incorporating VLMs with state-of-the-art methods on NuScenes datasets. The code is accessible at https://github.com/KTH-RPL/Detect_VLM.