LD-Scene: LLM-Guided Diffusion for Controllable Generation of Adversarial Safety-Critical Driving Scenarios

📄 arXiv: 2505.11247v2 📥 PDF

作者: Mingxing Peng, Yuting Xie, Xusen Guo, Ruoyu Yao, Hai Yang, Jun Ma

分类: cs.AI, cs.LG, cs.RO

发布日期: 2025-05-16 (更新: 2025-08-17)

备注: 18 pages, 8 figures


💡 一句话要点

LD-Scene:利用LLM引导扩散模型生成可控对抗性驾驶场景

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自动驾驶 对抗场景生成 大型语言模型 扩散模型 安全测试

📋 核心要点

  1. 现有自动驾驶安全评估方法在安全关键场景数据获取和可控性方面存在不足,需要大量专家知识。
  2. LD-Scene 框架结合 LLM 和 LDM,通过自然语言查询生成用户可控的对抗性驾驶场景。
  3. 实验表明,LD-Scene 在生成真实、多样且有效的对抗场景方面表现出色,并提供细粒度控制。

📝 摘要(中文)

为确保自动驾驶系统的安全性和鲁棒性,需要在安全关键场景中进行全面评估。然而,这些场景在真实驾驶数据中稀少且难以收集,对有效评估自动驾驶车辆的性能构成重大挑战。现有方法通常存在可控性有限和缺乏用户友好性等问题,本质上需要大量的专家知识。为了解决这些挑战,我们提出了一种新颖的框架LD-Scene,该框架集成了大型语言模型(LLM)和潜在扩散模型(LDM),通过自然语言实现用户可控的对抗场景生成。我们的方法包括一个捕获真实驾驶轨迹分布的LDM和一个基于LLM的引导模块,该模块将用户查询转换为对抗性损失函数,从而促进生成与用户查询对齐的场景。引导模块集成了基于LLM的Chain-of-Thought(CoT)代码生成器和基于LLM的代码调试器,增强了生成引导函数的可控性和鲁棒性。在nuScenes数据集上进行的大量实验表明,LD-Scene在生成真实、多样和有效的对抗场景方面实现了最先进的性能。此外,我们的框架提供了对对抗行为的细粒度控制,从而有助于进行针对特定驾驶场景的更有效的测试。

🔬 方法详解

问题定义:自动驾驶系统需要在各种安全关键场景下进行测试,以确保其安全性和鲁棒性。然而,这些场景在真实世界中非常罕见,难以收集。现有的对抗场景生成方法通常需要大量的专家知识,并且缺乏用户友好的控制方式,难以高效地生成满足特定需求的测试场景。

核心思路:LD-Scene的核心思路是利用大型语言模型(LLM)的强大语义理解和代码生成能力,将用户以自然语言表达的场景需求转化为可执行的对抗性损失函数,并以此引导潜在扩散模型(LDM)生成相应的驾驶场景。这种方法降低了对专家知识的依赖,并提高了场景生成的可控性和灵活性。

技术框架:LD-Scene框架主要包含两个核心模块:LDM和LLM引导模块。LDM负责学习真实驾驶轨迹的分布,并生成逼真的驾驶场景。LLM引导模块则负责将用户输入的自然语言查询转化为对抗性损失函数,并将其反馈给LDM,从而引导LDM生成符合用户需求的对抗场景。LLM引导模块进一步包含CoT代码生成器和代码调试器,以提高生成损失函数的质量和鲁棒性。

关键创新:LD-Scene的关键创新在于将LLM引入到对抗场景生成过程中,利用LLM的语义理解和代码生成能力,实现了用户可控的对抗场景生成。与传统的基于规则或优化的方法相比,LD-Scene能够更好地理解用户意图,并生成更复杂、更逼真的对抗场景。此外,CoT代码生成器和代码调试器的引入进一步提高了生成损失函数的质量和鲁棒性。

关键设计:LDM采用标准的扩散模型结构,并使用nuScenes数据集进行训练。LLM引导模块使用预训练的LLM,并通过微调来提高其在驾驶场景下的代码生成能力。对抗性损失函数的设计需要考虑场景的真实性和对抗性,例如可以设计损失函数来鼓励目标车辆偏离安全轨迹或与其他车辆发生碰撞。CoT代码生成器通过逐步推理的方式生成代码,代码调试器则负责检查和修复生成的代码中的错误。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,LD-Scene在nuScenes数据集上生成了高质量的对抗场景,显著提高了自动驾驶系统的测试效率。与现有方法相比,LD-Scene能够生成更真实、更多样化的对抗场景,并且能够更好地满足用户对场景的特定需求。具体性能提升数据未知,但论文强调了其在生成对抗场景方面的SOTA性能。

🎯 应用场景

LD-Scene可应用于自动驾驶系统的安全测试和验证,帮助开发者发现潜在的安全漏洞并提高系统的鲁棒性。该框架还可以用于生成各种极端驾驶场景,用于训练自动驾驶模型,提高其在复杂环境下的适应能力。此外,该技术还可以扩展到其他机器人领域,例如无人机和自动驾驶船舶。

📄 摘要(原文)

Ensuring the safety and robustness of autonomous driving systems necessitates a comprehensive evaluation in safety-critical scenarios. However, these safety-critical scenarios are rare and difficult to collect from real-world driving data, posing significant challenges to effectively assessing the performance of autonomous vehicles. Typical existing methods often suffer from limited controllability and lack user-friendliness, as extensive expert knowledge is essentially required. To address these challenges, we propose LD-Scene, a novel framework that integrates Large Language Models (LLMs) with Latent Diffusion Models (LDMs) for user-controllable adversarial scenario generation through natural language. Our approach comprises an LDM that captures realistic driving trajectory distributions and an LLM-based guidance module that translates user queries into adversarial loss functions, facilitating the generation of scenarios aligned with user queries. The guidance module integrates an LLM-based Chain-of-Thought (CoT) code generator and an LLM-based code debugger, enhancing the controllability and robustness in generating guidance functions. Extensive experiments conducted on the nuScenes dataset demonstrate that LD-Scene achieves state-of-the-art performance in generating realistic, diverse, and effective adversarial scenarios. Furthermore, our framework provides fine-grained control over adversarial behaviors, thereby facilitating more effective testing tailored to specific driving scenarios.