CRASH: Challenging Reinforcement-Learning Based Adversarial Scenarios For Safety Hardening
作者: Amar Kulkarni, Shangtong Zhang, Madhur Behl
分类: cs.LG, cs.RO
发布日期: 2024-11-26
备注: 7 pages, 9 figures, 2 tables
💡 一句话要点
提出CRASH框架,利用强化学习对抗场景提升自动驾驶安全性
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 自动驾驶 强化学习 对抗性场景 安全性测试 运动规划
📋 核心要点
- 自动驾驶安全依赖于发现极端失效案例,但真实路测成本高昂且难以覆盖所有场景。
- CRASH利用强化学习训练对抗性NPC,诱导自车发生碰撞,从而发现运动规划器的薄弱环节。
- 通过安全强化,CRASH迭代改进运动规划器,在对抗环境中提升自车的安全性,降低碰撞率。
📝 摘要(中文)
为确保自动驾驶汽车(AVs)的安全性,需要识别仅靠路测无法发现的罕见但关键的失效案例。高保真模拟提供了一种可扩展的替代方案,但自动生成能够有效压力测试AV运动规划器的、逼真且多样化的交通场景仍然是一个关键挑战。本文介绍CRASH——基于强化学习对抗场景的安全性强化方法——一个对抗性深度强化学习框架来解决这个问题。首先,CRASH可以控制AV模拟器中的对抗性非玩家角色(NPC)智能体,自动诱导与自车(Ego vehicle)发生碰撞,从而伪造其运动规划器。我们还提出了一种新颖的方法,我们称之为安全强化,它通过模拟对抗性智能体下的改进场景来迭代地改进运动规划器,利用失效案例来加强AV堆栈。CRASH在一个简化的双车道高速公路场景中进行了评估,证明了其能够以超过90%的碰撞率伪造基于规则和基于学习的规划器。此外,安全强化将自车的碰撞率降低了26%。虽然是初步的,但这些结果突出了基于强化学习的安全强化作为自动驾驶汽车场景驱动模拟测试的一种有前景的方法。
🔬 方法详解
问题定义:自动驾驶汽车的安全性验证面临挑战,真实道路测试成本高昂且难以覆盖所有可能出现的危险场景。现有的模拟测试方法难以自动生成能够有效暴露自动驾驶系统缺陷的、具有挑战性的测试场景,尤其是在运动规划层面。因此,如何高效地生成能够诱发自动驾驶车辆失效的对抗性场景,是亟待解决的问题。
核心思路:CRASH的核心思路是利用强化学习训练对抗性智能体(NPC),使其在模拟环境中与自动驾驶车辆(Ego vehicle)交互,并学习如何通过操纵自身行为来最大化Ego vehicle发生碰撞的可能性。通过这种对抗性的方式,可以自动发现Ego vehicle运动规划器的弱点,并生成具有挑战性的测试场景。
技术框架:CRASH框架主要包含以下几个模块:1) 自动驾驶模拟环境:提供Ego vehicle和NPC的运动学模型和交互规则。2) 对抗性NPC智能体:使用深度强化学习算法(如PPO)训练,目标是最大化Ego vehicle的碰撞率。3) 奖励函数设计:奖励函数用于指导NPC智能体的学习,通常包括碰撞惩罚、接近Ego vehicle的奖励等。4) 安全强化模块:利用对抗性场景训练数据,迭代优化Ego vehicle的运动规划器。
关键创新:CRASH的关键创新在于:1) 利用强化学习自动生成对抗性测试场景,无需人工设计。2) 提出安全强化方法,通过对抗性训练迭代提升自动驾驶系统的安全性。3) 将对抗性强化学习应用于自动驾驶运动规划器的测试和改进,为安全验证提供了一种新的思路。
关键设计:在NPC智能体的训练中,采用了近端策略优化(PPO)算法,并设计了合适的奖励函数,包括:1) 碰撞惩罚:Ego vehicle发生碰撞时给予负奖励。2) 接近奖励:NPC接近Ego vehicle时给予正奖励。3) 速度奖励:鼓励NPC保持一定的速度。在安全强化阶段,使用对抗性场景数据微调Ego vehicle的运动规划器,例如,通过模仿学习或强化学习的方式,使其能够更好地应对对抗性NPC的行为。
🖼️ 关键图片
📊 实验亮点
实验结果表明,CRASH能够以超过90%的碰撞率伪造基于规则和基于学习的运动规划器。通过安全强化,自车的碰撞率降低了26%。这些结果验证了CRASH框架在自动驾驶安全性测试和强化方面的有效性,表明其能够显著提升自动驾驶系统在对抗性场景下的安全性。
🎯 应用场景
CRASH框架可应用于自动驾驶汽车的安全性测试与验证,帮助开发者发现和修复运动规划器中的潜在缺陷。此外,该方法还可以用于训练更鲁棒的自动驾驶系统,提高其在复杂交通环境中的安全性。该研究对于推动自动驾驶技术的安全落地具有重要意义。
📄 摘要(原文)
Ensuring the safety of autonomous vehicles (AVs) requires identifying rare but critical failure cases that on-road testing alone cannot discover. High-fidelity simulations provide a scalable alternative, but automatically generating realistic and diverse traffic scenarios that can effectively stress test AV motion planners remains a key challenge. This paper introduces CRASH - Challenging Reinforcement-learning based Adversarial scenarios for Safety Hardening - an adversarial deep reinforcement learning framework to address this issue. First CRASH can control adversarial Non Player Character (NPC) agents in an AV simulator to automatically induce collisions with the Ego vehicle, falsifying its motion planner. We also propose a novel approach, that we term safety hardening, which iteratively refines the motion planner by simulating improvement scenarios against adversarial agents, leveraging the failure cases to strengthen the AV stack. CRASH is evaluated on a simplified two-lane highway scenario, demonstrating its ability to falsify both rule-based and learning-based planners with collision rates exceeding 90%. Additionally, safety hardening reduces the Ego vehicle's collision rate by 26%. While preliminary, these results highlight RL-based safety hardening as a promising approach for scenario-driven simulation testing for autonomous vehicles.