Multi-Objective Reinforcement Learning for Critical Scenario Generation of Autonomous Vehicles

作者: Jiahui Wu, Chengjie Lu, Aitor Arrieta, Shaukat Ali

分类: cs.SE, cs.LG, cs.RO

发布日期: 2025-02-18

💡 一句话要点

提出基于多目标强化学习的MOEQT方法，用于生成自动驾驶车辆的关键场景。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 自动驾驶 关键场景生成 多目标强化学习 Envelope Q-learning 场景测试

📋 核心要点

自动驾驶车辆的可靠性保障面临挑战，现有方法难以有效识别可能违反安全或功能要求的关键场景。
提出MOEQT方法，利用多目标强化学习动态平衡多个目标，生成能够同时测试相互依赖的安全和功能要求的关键场景。
实验结果表明，MOEQT在识别关键场景方面优于随机策略和单目标强化学习，提升了自动驾驶车辆测试的有效性。

📝 摘要（中文）

自动驾驶车辆（AVs）在没有人工干预的情况下做出驾驶决策。因此，确保AVs的可靠性至关重要。尽管在AV开发方面进行了大量的研究和开发，但由于其运行环境的复杂性和不可预测性，其可靠性保证仍然是一个重大挑战。基于场景的测试在各种驾驶场景下评估AVs，但潜在场景的数量是无限的，这突出了识别可能违反安全或功能要求的关键场景的重要性。这些要求本质上是相互依赖的，需要同时进行测试。为此，我们提出了一种新的基于多目标强化学习（MORL）的方法MOEQT，以生成同时测试相互依赖的安全和功能要求的关键场景。MOEQT采用Envelope Q-learning作为MORL算法，该算法动态地调整多目标权重，以平衡多个目标之间的相对重要性。MOEQT通过与AV环境动态交互来生成违反多个要求的关键场景，从而确保全面的AV测试。我们使用先进的端到端AV控制器和高保真模拟器评估MOEQT，并将MOEQT与两个基线进行比较：随机策略和具有加权奖励函数的单目标RL。我们的评估结果表明，在识别违反多个要求的关键场景方面，MOEQT的总体性能优于基线。

🔬 方法详解

问题定义：自动驾驶车辆的测试需要大量的场景，但并非所有场景都同等重要。关键场景是指那些可能导致安全事故或功能失效的场景。现有方法，如随机测试，效率低下，难以覆盖所有关键场景。单目标强化学习虽然可以优化特定指标，但难以同时兼顾多个相互依赖的安全和功能需求。

核心思路：MOEQT的核心思路是利用多目标强化学习（MORL）同时优化多个目标，每个目标对应一个安全或功能需求。通过动态调整不同目标的权重，MOEQT能够探索更广泛的场景空间，并识别出能够同时违反多个需求的复杂关键场景。这种方法能够更有效地测试自动驾驶车辆的鲁棒性和安全性。

技术框架：MOEQT的整体框架包括以下几个主要模块：1) 环境交互模块：负责与自动驾驶模拟环境进行交互，获取状态和奖励信号。2) 多目标强化学习模块：采用Envelope Q-learning算法，根据当前状态和目标权重，选择合适的动作。3) 权重调整模块：动态调整不同目标的权重，以平衡不同需求之间的重要性。4) 场景生成模块：根据强化学习算法选择的动作，生成相应的驾驶场景。

关键创新：MOEQT的关键创新在于将多目标强化学习应用于自动驾驶关键场景生成，并采用Envelope Q-learning算法动态调整目标权重。与传统的单目标强化学习方法相比，MOEQT能够同时优化多个目标，更有效地识别复杂关键场景。与随机测试相比，MOEQT能够更有针对性地生成可能违反安全和功能要求的场景。

关键设计：MOEQT采用Envelope Q-learning作为MORL算法，该算法维护一个Q函数的集合，每个Q函数对应一组不同的目标权重。在每个时间步，MOEQT根据当前状态和目标权重，选择具有最高Q值的动作。奖励函数的设计至关重要，需要能够准确反映不同安全和功能需求的违反程度。具体参数设置和网络结构在论文中未明确说明，属于未知信息。

🖼️ 关键图片

📊 实验亮点

实验结果表明，MOEQT在识别违反多个要求的关键场景方面，总体性能优于随机策略和具有加权奖励函数的单目标RL。具体的性能数据和提升幅度在摘要中未给出，属于未知信息。但结论表明MOEQT能够更有效地发现自动驾驶系统中的潜在问题。

🎯 应用场景

该研究成果可应用于自动驾驶车辆的测试与验证，帮助开发者更有效地识别潜在的安全风险和功能缺陷。通过生成更具挑战性的关键场景，可以提高自动驾驶系统的鲁棒性和可靠性，加速自动驾驶技术的商业化落地。此外，该方法也可推广到其他复杂系统的测试与验证领域。

📄 摘要（原文）

Autonomous vehicles (AVs) make driving decisions without human intervention. Therefore, ensuring AVs' dependability is critical. Despite significant research and development in AV development, their dependability assurance remains a significant challenge due to the complexity and unpredictability of their operating environments. Scenario-based testing evaluates AVs under various driving scenarios, but the unlimited number of potential scenarios highlights the importance of identifying critical scenarios that can violate safety or functional requirements. Such requirements are inherently interdependent and need to be tested simultaneously. To this end, we propose MOEQT, a novel multi-objective reinforcement learning (MORL)-based approach to generate critical scenarios that simultaneously test interdependent safety and functional requirements. MOEQT adapts Envelope Q-learning as the MORL algorithm, which dynamically adapts multi-objective weights to balance the relative importance between multiple objectives. MOEQT generates critical scenarios to violate multiple requirements through dynamically interacting with the AV environment, ensuring comprehensive AV testing. We evaluate MOEQT using an advanced end-to-end AV controller and a high-fidelity simulator and compare MOEQT with two baselines: a random strategy and a single-objective RL with a weighted reward function. Our evaluation results show that MOEQT achieved an overall better performance in identifying critical scenarios for violating multiple requirements than the baselines.

Multi-Objective Reinforcement Learning for Critical Scenario Generation of Autonomous Vehicles

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理