How to Brake? Ethical Emergency Braking with Deep Reinforcement Learning

📄 arXiv: 2512.10698v1 📥 PDF

作者: Jianbo Wang, Galina Sidorenko, Johan Thunberg

分类: cs.RO, cs.AI

发布日期: 2025-12-11


💡 一句话要点

提出基于深度强化学习的伦理紧急制动策略,提升多车协同场景下的安全性

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 深度强化学习 紧急制动 自动驾驶 车辆协同 伦理决策

📋 核心要点

  1. 传统保守的紧急制动策略虽然安全,但牺牲了灵活性,影响整体性能,需要更智能的策略。
  2. 论文提出一种混合方法,结合深度强化学习和解析表达式,优化多车协同场景下的紧急制动策略。
  3. 实验表明,该混合方法在提高可靠性的同时,显著降低了碰撞风险,提升了整体安全性。

📝 摘要(中文)

本文研究了如何利用深度强化学习(DRL)来提高多车跟随场景中紧急制动的安全性。针对车辆互联互通的场景,本文提出了一种新的方法,旨在通过DRL来选择紧急制动策略,从而在整体上实现三车伤害降低或避免碰撞,而非仅考虑单车利益。该方法结合了DRL和先前发表的基于解析表达式选择最优恒定减速度的方法,形成了一种混合方法。与单独使用DRL相比,该混合方法提高了可靠性,并在整体伤害降低和避免碰撞方面取得了更优越的性能。

🔬 方法详解

问题定义:论文旨在解决多车跟随场景下,如何设计一种伦理的紧急制动策略,在避免碰撞的同时,最大程度地减少整体伤害。现有方法,如基于最坏情况的保守控制策略,虽然可以避免碰撞,但会牺牲车辆的灵活性和整体交通效率。此外,仅考虑单车利益的制动策略可能导致全局次优解,甚至增加其他车辆的风险。

核心思路:论文的核心思路是利用深度强化学习(DRL)来学习一种能够权衡个体利益和集体利益的紧急制动策略。通过DRL,智能体可以学习到在不同场景下选择合适的制动策略,从而在避免碰撞的同时,最大程度地减少整体伤害。此外,论文还结合了基于解析表达式的最优恒定减速度方法,以提高DRL的可靠性和稳定性。

技术框架:该方法采用混合架构,包含两个主要模块:DRL模块和解析表达式模块。DRL模块负责学习复杂的制动策略,解析表达式模块则提供一个安全的备选方案。在每个时间步,系统首先评估DRL模块的输出,如果DRL模块的输出不安全或不可靠,则切换到解析表达式模块。车辆之间通过V2V通信共享信息,以便做出更明智的决策。

关键创新:该方法的关键创新在于将DRL与传统的解析方法相结合,从而在保证安全性的同时,提高了策略的灵活性和适应性。此外,该方法还考虑了多车协同的场景,通过优化整体的伤害降低或碰撞避免,而非仅仅关注单车利益,从而实现了更伦理的紧急制动。

关键设计:论文中使用的DRL算法可能是基于Actor-Critic的算法,例如DDPG或TD3。奖励函数的设计至关重要,需要平衡碰撞避免、伤害降低和驾驶舒适性等多个目标。网络结构的选择也需要根据具体场景进行调整,例如可以使用卷积神经网络来处理车辆周围环境的感知信息,使用循环神经网络来处理时间序列数据。解析表达式模块则需要根据车辆的动力学模型和交通规则进行设计。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该研究提出的混合方法在多车跟随场景中取得了显著的性能提升。与单独使用DRL相比,该方法提高了紧急制动策略的可靠性,并显著降低了碰撞风险和整体伤害。具体的性能数据(例如碰撞率降低百分比、平均伤害降低百分比)需要在论文中查找。

🎯 应用场景

该研究成果可应用于自动驾驶汽车的紧急制动系统,尤其是在车辆编队行驶、高速公路等复杂交通场景中。通过提升紧急制动策略的智能化和伦理性,可以有效降低交通事故的发生率,减少人员伤亡,并提高整体交通效率。此外,该方法还可以推广到其他需要多智能体协同决策的领域,例如机器人集群控制、智能交通管理等。

📄 摘要(原文)

Connected and automated vehicles (CAVs) have the potential to enhance driving safety, for example by enabling safe vehicle following and more efficient traffic scheduling. For such future deployments, safety requirements should be addressed, where the primary such are avoidance of vehicle collisions and substantial mitigating of harm when collisions are unavoidable. However, conservative worst-case-based control strategies come at the price of reduced flexibility and may compromise overall performance. In light of this, we investigate how Deep Reinforcement Learning (DRL) can be leveraged to improve safety in multi-vehicle-following scenarios involving emergency braking. Specifically, we investigate how DRL with vehicle-to-vehicle communication can be used to ethically select an emergency breaking profile in scenarios where overall, or collective, three-vehicle harm reduction or collision avoidance shall be obtained instead of single-vehicle such. As an algorithm, we provide a hybrid approach that combines DRL with a previously published method based on analytical expressions for selecting optimal constant deceleration. By combining DRL with the previous method, the proposed hybrid approach increases the reliability compared to standalone DRL, while achieving superior performance in terms of overall harm reduction and collision avoidance.