Reinforcement learning in pursuit-evasion differential game: safety, stability and robustness
作者: Xinyang Wang, Hongwei Zhang, Jun Xu, Shimin Wang, Martin Guay
分类: eess.SY
发布日期: 2025-07-18
备注: 13 pages, 7 figures
💡 一句话要点
提出结合CBF与SMC的强化学习框架,解决干扰环境下追逃博弈的安全、稳定与鲁棒性问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 强化学习 追逃博弈 控制障碍函数 滑模控制 鲁棒控制 安全性 稳定性 Stackelberg博弈
📋 核心要点
- 现有追逃问题研究较少考虑实际扰动,导致算法在真实环境中安全性和鲁棒性不足。
- 论文提出一种分层强化学习框架,结合控制障碍函数(CBF)和滑模控制(SMC),实现安全、稳定和鲁棒的追逃策略。
- 仿真结果验证了该框架在存在扰动的情况下,仍能保证追逃过程的安全性和有效性。
📝 摘要(中文)
本文研究了障碍物丰富的环境中追逃(PE)问题的安全性与稳定性。现有方法多结合控制障碍函数(CBF)和强化学习(RL)以提供高效且安全的解决方案,但忽略了实际应用中可能存在的扰动,如风和执行器故障。本文将CBF和滑模控制(SMC)项集成到RL中,以同时解决安全性、稳定性和对扰动的鲁棒性。由于CBF和SMC项之间的强耦合性,这种集成极具挑战性。受Stackelberg博弈的启发,我们提出了一种分层设计方案来处理耦合问题,其中SMC和安全控制项以领导者-跟随者的形式相互作用。具体而言,CBF控制器作为领导者,独立于SMC设计来强制执行安全性;而SMC项作为跟随者,基于CBF控制器进行设计。然后,我们将PE问题表述为零和博弈,并提出了一种安全鲁棒的RL框架来在线学习最小-最大策略。提供了一个充分条件,在该条件下,即使约束相互冲突,所提出的算法仍然有效。仿真结果表明了所提出的安全鲁棒RL框架的有效性。
🔬 方法详解
问题定义:论文旨在解决存在扰动(如风、执行器故障)的复杂环境中,追逃博弈的安全、稳定和鲁棒性问题。现有方法通常只关注安全性和效率,忽略了实际应用中不可避免的扰动,导致性能下降甚至失效。
核心思路:论文的核心思路是将控制障碍函数(CBF)和滑模控制(SMC)集成到强化学习(RL)框架中。CBF负责保证安全性,SMC负责抑制扰动,RL负责学习最优策略。为了解决CBF和SMC之间的耦合问题,采用了Stackelberg博弈的分层控制思想。
技术框架:整体框架包含三个主要部分:1) CBF控制器,作为领导者,独立保证安全性;2) SMC项,作为跟随者,基于CBF控制器进行设计,抑制扰动;3) 强化学习模块,将追逃问题建模为零和博弈,学习最小-最大策略。CBF和SMC共同作用,为RL提供一个安全且鲁棒的环境。
关键创新:论文的关键创新在于将CBF和SMC以Stackelberg博弈的方式集成到RL框架中,实现了安全、稳定和鲁棒的追逃策略。这种分层控制策略有效解耦了CBF和SMC的设计,简化了算法的复杂性。此外,论文还提供了一个充分条件,保证算法在约束冲突时仍然有效。
关键设计:CBF的设计需要选择合适的障碍函数,保证追逃者始终在安全区域内。SMC的设计需要选择合适的滑模面和控制增益,以有效抑制扰动。强化学习模块使用深度神经网络作为函数逼近器,学习最优的最小-最大策略。损失函数的设计需要考虑安全性、稳定性和鲁棒性,并进行适当的权重调整。
🖼️ 关键图片
📊 实验亮点
仿真结果表明,所提出的安全鲁棒RL框架在存在扰动的情况下,能够有效地保证追逃过程的安全性、稳定性和鲁棒性。与传统方法相比,该框架能够更好地应对复杂环境中的挑战,并取得更好的性能。
🎯 应用场景
该研究成果可应用于无人机集群协同追逃、机器人足球比赛、自主车辆避障等领域。通过提高系统在复杂环境下的安全性和鲁棒性,可以降低事故风险,提高任务完成效率,具有重要的实际应用价值和广阔的应用前景。
📄 摘要(原文)
Safety and stability are two critical concerns in pursuit-evasion (PE) problems in an obstacle-rich environment. Most existing works combine control barrier functions (CBFs) and reinforcement learning (RL) to provide an efficient and safe solution. However, they do not consider the presence of disturbances, such as wind gust and actuator fault, which may exist in many practical applications. This paper integrates CBFs and a sliding mode control (SMC) term into RL to simultaneously address safety, stability, and robustness to disturbances. However, this integration is significantly challenging due to the strong coupling between the CBF and SMC terms. Inspired by Stackelberg game, we handle the coupling issue by proposing a hierarchical design scheme where SMC and safe control terms interact with each other in a leader-follower manner. Specifically, the CBF controller, acting as the leader, enforces safety independently of the SMC design; while the SMC term, as the follower, is designed based on the CBF controller. We then formulate the PE problem as a zero-sum game and propose a safe robust RL framework to learn the min-max strategy online. A sufficient condition is provided under which the proposed algorithm remains effective even when constraints are conflicting. Simulation results demonstrate the effectiveness of the proposed safe robust RL framework.