From Words to Collisions: LLM-Guided Evaluation and Adversarial Generation of Safety-Critical Driving Scenarios
作者: Yuan Gao, Mattia Piccinini, Korbinian Moller, Amr Alanwar, Johannes Betz
分类: cs.AI, cs.CL, cs.RO
发布日期: 2025-02-04 (更新: 2025-07-18)
备注: Final Version and Paper Accepted at IEEE ITSC 2025
🔗 代码/项目: GITHUB
💡 一句话要点
提出LLM引导的自动驾驶安全场景评估与对抗生成方法,提升测试效率。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 自动驾驶 安全测试 场景生成 大型语言模型 对抗攻击
📋 核心要点
- 现有自动驾驶安全测试依赖手工设计的场景和安全指标,存在人工成本高、可扩展性差的问题。
- 论文提出利用LLM进行场景评估和对抗生成,通过提示工程和结构化场景解析,实现自动化和智能化。
- 实验结果表明,该方法能有效检测碰撞风险,生成逼真的安全关键场景,降低对手工设计的依赖。
📝 摘要(中文)
本文提出了一种结合大型语言模型(LLM)与结构化场景解析和提示工程的方法,用于自动评估和生成安全关键的驾驶场景,旨在减少人工干预并克服传统方法的可扩展性限制。论文引入了笛卡尔坐标和自我中心坐标两种提示策略用于场景评估,并设计了一个对抗生成模块,通过修改风险车辆(自我攻击者)的轨迹来创建关键场景。实验结果表明,评估模块能有效检测碰撞场景并推断场景安全性,生成模块能识别高风险智能体并合成逼真的安全关键场景。该方法表明,配备领域知识提示技术的LLM能有效评估和生成安全关键驾驶场景,降低对手工指标的依赖。
🔬 方法详解
问题定义:论文旨在解决自动驾驶车辆安全测试中,依赖人工设计安全场景和评估指标的问题。现有方法需要大量人工干预,且难以覆盖所有可能的危险场景,导致测试效率低下,无法保证自动驾驶系统的安全性。
核心思路:论文的核心思路是利用大型语言模型(LLM)的自然语言理解和生成能力,结合结构化的场景解析和提示工程,实现自动化的安全场景评估和对抗生成。通过将场景信息转化为自然语言描述,并设计合适的提示语,引导LLM进行安全风险评估和关键场景生成。
技术框架:整体框架包含两个主要模块:场景评估模块和对抗生成模块。场景评估模块接收场景数据,通过笛卡尔坐标或自我中心坐标的提示策略,将场景信息转化为自然语言描述,输入LLM进行安全风险评估。对抗生成模块首先识别高风险智能体,然后通过修改其轨迹,生成更具挑战性的安全关键场景。整个流程无需人工干预,实现了自动化。
关键创新:最重要的技术创新点在于将LLM引入自动驾驶安全测试领域,并结合提示工程和结构化场景解析,实现了自动化的安全场景评估和对抗生成。与传统方法相比,该方法无需人工设计安全场景和评估指标,降低了人工成本,提高了测试效率。
关键设计:论文设计了两种提示策略:笛卡尔坐标提示和自我中心坐标提示。笛卡尔坐标提示直接描述场景中各个智能体的绝对位置和速度,而自我中心坐标提示则以自我车辆为中心,描述其他智能体的相对位置和速度。对抗生成模块通过优化风险智能体的轨迹,使其更接近自我车辆,从而增加碰撞风险。具体的优化算法和损失函数细节未知。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法能有效检测碰撞场景并推断场景安全性,生成模块能识别高风险智能体并合成逼真的安全关键场景。具体性能数据未知,但论文强调该方法降低了对手工指标的依赖,提高了测试效率。
🎯 应用场景
该研究成果可应用于自动驾驶车辆的虚拟测试平台,加速自动驾驶系统的开发和验证过程。通过自动生成和评估安全关键场景,可以更全面地测试自动驾驶系统的鲁棒性和安全性,降低实际道路测试的风险和成本。此外,该方法还可以用于自动驾驶安全标准的制定和评估。
📄 摘要(原文)
Ensuring the safety of autonomous vehicles requires virtual scenario-based testing, which depends on the robust evaluation and generation of safety-critical scenarios. So far, researchers have used scenario-based testing frameworks that rely heavily on handcrafted scenarios as safety metrics. To reduce the effort of human interpretation and overcome the limited scalability of these approaches, we combine Large Language Models (LLMs) with structured scenario parsing and prompt engineering to automatically evaluate and generate safety-critical driving scenarios. We introduce Cartesian and Ego-centric prompt strategies for scenario evaluation, and an adversarial generation module that modifies trajectories of risk-inducing vehicles (ego-attackers) to create critical scenarios. We validate our approach using a 2D simulation framework and multiple pre-trained LLMs. The results show that the evaluation module effectively detects collision scenarios and infers scenario safety. Meanwhile, the new generation module identifies high-risk agents and synthesizes realistic, safety-critical scenarios. We conclude that an LLM equipped with domain-informed prompting techniques can effectively evaluate and generate safety-critical driving scenarios, reducing dependence on handcrafted metrics. We release our open-source code and scenarios at: https://github.com/TUM-AVS/From-Words-to-Collisions.