Adversarial Safety-Critical Scenario Generation using Naturalistic Human Driving Priors

作者: Kunkun Hao, Yonggang Luo, Wen Cui, Yuqiao Bai, Jucheng Yang, Songyang Yan, Yuxi Pan, Zijiang Yang

分类: cs.RO, cs.AI

发布日期: 2024-08-06 (更新: 2024-08-07)

备注: Published in IEEE Transactions on Intelligent Vehicles, 2023

期刊: IEEE Transactions on Intelligent Vehicles (2023)

DOI: 10.1109/TIV.2023.3335862

💡 一句话要点

提出一种基于自然驾驶先验的对抗性安全关键场景生成方法，用于自动驾驶决策系统评估。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 自动驾驶 场景生成 对抗学习 强化学习 模仿学习 安全关键 驾驶行为建模

📋 核心要点

自动驾驶测试场景的获取面临长尾分布和数据稀疏性挑战，难以覆盖所有安全关键情况。
利用自然驾驶数据先验，结合生成对抗模仿学习和强化学习，生成更真实和多样化的测试场景。
实验表明，该方法生成的场景在碰撞率、加速度和换道行为等指标上更具挑战性，能有效评估自动驾驶系统。

📝 摘要（中文）

在自动驾驶车辆开发中，评估决策系统至关重要，而逼真且具有挑战性的安全关键测试场景起着关键作用。由于现实世界数据集中的长尾分布、稀疏性和罕见性，获取这些场景并非易事。为了解决这个问题，本文提出了一种利用自然人类驾驶先验知识和强化学习技术的自然对抗场景生成解决方案。通过这种方法，我们可以获得大规模的、多样且真实的测试场景。具体来说，我们构建了一个模拟自然交通交互场景的仿真环境。在此基础上，我们实现了一个两阶段过程。第一阶段结合了传统的基于规则的模型，例如IDM（智能驾驶员模型）和MOBIL（最小化换道引起的总体制动）模型，从真实世界数据集中粗略且离散地捕获和校准关键控制参数。接下来，我们利用GAIL（生成对抗模仿学习）来连续地表示驾驶员行为。导出的GAIL可以进一步用于设计一个基于PPO（近端策略优化）的actor-critic网络框架，以微调奖励函数，然后优化我们的自然对抗场景生成解决方案。我们在包含3000辆车轨迹的NGSIM数据集上进行了广泛的实验。与基线模型相比，测量了重要的交通参数，例如碰撞率、加速度、转向和换道次数。我们的研究结果表明，所提出的模型可以生成兼具自然性和对抗性的逼真安全关键测试场景，这可以成为自动驾驶车辆开发的基石。

🔬 方法详解

问题定义：自动驾驶决策系统需要充分的测试，但真实世界数据集中安全关键场景稀少且分布不均，难以有效评估系统性能。现有方法要么依赖人工设计，要么直接从真实数据采样，难以保证场景的多样性和挑战性。

核心思路：利用自然驾驶数据中蕴含的驾驶员行为模式作为先验知识，通过生成对抗模仿学习（GAIL）学习驾驶员行为，并结合强化学习（PPO）对抗性地生成安全关键场景。这种方法旨在生成既贴近真实驾驶行为，又具有挑战性的测试用例。

技术框架：该方法包含两个主要阶段：1) 基于规则模型的参数校准：使用IDM和MOBIL等模型从真实数据中提取关键控制参数，进行粗略的离散化表示。2) 基于GAIL和PPO的对抗场景生成：利用GAIL学习连续的驾驶员行为表示，并使用PPO框架微调奖励函数，最终生成对抗性的安全关键场景。整体流程是先从真实数据学习驾驶行为，再通过强化学习对抗性地生成测试场景。

关键创新：该方法的核心创新在于结合了自然驾驶先验和对抗性生成。传统的场景生成方法要么过于依赖人工规则，要么难以生成具有挑战性的场景。该方法通过GAIL学习真实驾驶行为，保证了生成场景的自然性，同时利用PPO对抗性地优化场景，使其更具挑战性，从而更有效地评估自动驾驶系统。

关键设计：在第一阶段，使用IDM和MOBIL模型对NGSIM数据集中的车辆轨迹进行参数估计，得到车辆的加速度、换道意图等信息。在第二阶段，GAIL的生成器学习模仿真实驾驶员的行为，判别器区分生成器生成的轨迹和真实轨迹。PPO算法用于优化生成器的策略，奖励函数的设计至关重要，需要考虑碰撞风险、加速度、换道行为等因素。PPO的actor网络输出车辆的控制指令，critic网络评估当前状态的价值。

🖼️ 关键图片

📊 实验亮点

该论文在NGSIM数据集上进行了实验，结果表明，与基线模型相比，该方法生成的场景具有更高的碰撞率、更大的加速度和更频繁的换道行为，表明生成的场景更具挑战性。通过对比实验，验证了该方法在生成自然且对抗性场景方面的有效性，为自动驾驶系统的测试提供了一种新的解决方案。

🎯 应用场景

该研究成果可应用于自动驾驶车辆的仿真测试和验证，帮助开发者发现和解决潜在的安全问题。通过生成更具挑战性和真实性的测试场景，可以提高自动驾驶系统的鲁棒性和安全性，加速自动驾驶技术的商业化落地。此外，该方法也可用于辅助驾驶员培训和交通流分析。

📄 摘要（原文）

Evaluating the decision-making system is indispensable in developing autonomous vehicles, while realistic and challenging safety-critical test scenarios play a crucial role. Obtaining these scenarios is non-trivial, thanks to the long-tailed distribution, sparsity, and rarity in real-world data sets. To tackle this problem, in this paper, we introduce a natural adversarial scenario generation solution using naturalistic human driving priors and reinforcement learning techniques. By doing this, we can obtain large-scale test scenarios that are both diverse and realistic. Specifically, we build a simulation environment that mimics natural traffic interaction scenarios. Informed by this environment, we implement a two-stage procedure. The first stage incorporates conventional rule-based models, e.g., IDM~(Intelligent Driver Model) and MOBIL~(Minimizing Overall Braking Induced by Lane changes) model, to coarsely and discretely capture and calibrate key control parameters from the real-world dataset. Next, we leverage GAIL~(Generative Adversarial Imitation Learning) to represent driver behaviors continuously. The derived GAIL can be further used to design a PPO~(Proximal Policy Optimization)-based actor-critic network framework to fine-tune the reward function, and then optimizes our natural adversarial scenario generation solution. Extensive experiments have been conducted in the NGSIM dataset including the trajectory of 3,000 vehicles. Essential traffic parameters were measured in comparison with the baseline model, e.g., the collision rate, accelerations, steering, and the number of lane changes. Our findings demonstrate that the proposed model can generate realistic safety-critical test scenarios covering both naturalness and adversariality, which can be a cornerstone for the development of autonomous vehicles.

Adversarial Safety-Critical Scenario Generation using Naturalistic Human Driving Priors

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理