Ensuring Safety in Target Pursuit Control: A CBF-Safe Reinforcement Learning Approach
作者: Yaosheng Deng, Junjie Gao, Jiaping Xiao, Mir Feroskhan
分类: eess.SY
发布日期: 2024-11-26 (更新: 2024-12-10)
备注: 12 pages
💡 一句话要点
提出基于CBF安全强化学习的追逐控制算法,确保追逐过程中的安全性
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 强化学习 控制屏障函数 安全控制 目标追逐 多智能体系统
📋 核心要点
- 现有追逐控制方法难以在复杂环境中同时保证避碰、感知范围和输入饱和等多个安全约束。
- 提出一种基于控制屏障函数(CBF)的安全强化学习(CSRL)算法,通过安全滤波器动态调节控制策略,确保安全性。
- 仿真结果表明,CSRL算法在复杂追逐场景中能够有效保证安全性,并提升控制性能。
📝 摘要(中文)
本文研究目标追逐问题,旨在确保每个追逐者在避碰、感知范围和输入饱和方面的安全性。提出了一种输入约束的控制屏障函数(CBF),以动态调节追逐者的控制,即使在目标执行规避动作时也能确保有效的目标追逐。为了进一步确保安全,设计了两组CBF约束来调节追逐者的位置,使其能够在复杂环境中保持目标在感知范围内,同时避免碰撞。这三个CBF共同构成了我们的安全滤波器,通过求解二次规划(QP)来过滤来自强化学习的不安全输出。最后,安全滤波器与增强QP求解可行性的切换策略相结合,构成了控制屏障函数(CBF)安全强化学习(CSRL)算法,该算法的解被证明满足所有安全约束的Karush-Kuhn-Tucker(KKT)条件。仿真结果验证了CSRL算法的有效性,证明了其在保持安全性和提高控制性能的同时,处理复杂追逐场景的能力。
🔬 方法详解
问题定义:论文旨在解决多智能体目标追逐问题,尤其关注在复杂环境中如何保证追逐者的安全性。现有方法在处理避碰、保持目标在感知范围内以及避免输入饱和等多个安全约束时存在不足,容易导致追逐失败或发生碰撞等安全问题。
核心思路:论文的核心思路是利用控制屏障函数(CBF)构建安全滤波器,对强化学习算法输出的控制指令进行修正,确保满足所有安全约束。通过求解二次规划(QP)问题,找到与原始控制指令最接近的安全控制指令。
技术框架:CSRL算法的整体框架包括三个主要模块:强化学习策略生成器、CBF安全滤波器和切换策略。强化学习策略生成器负责生成初步的控制指令;CBF安全滤波器利用三个CBF约束(避碰、感知范围、输入饱和)对控制指令进行修正;切换策略用于增强QP求解的可行性,确保算法的鲁棒性。
关键创新:论文的关键创新在于将CBF与强化学习相结合,提出了一种CBF安全强化学习算法。该算法能够有效地将安全约束融入到强化学习的训练过程中,保证了追逐过程的安全性。此外,提出的切换策略提高了QP求解的可行性,增强了算法的鲁棒性。
关键设计:论文设计了三个关键的CBF约束:避碰约束、感知范围约束和输入饱和约束。避碰约束保证追逐者之间以及追逐者与障碍物之间不会发生碰撞;感知范围约束保证目标始终在追逐者的感知范围内;输入饱和约束保证控制指令不超过执行器的最大能力。此外,论文还设计了一种切换策略,用于在不同的CBF约束之间进行切换,以提高QP求解的可行性。
🖼️ 关键图片
📊 实验亮点
仿真结果表明,所提出的CSRL算法能够在复杂追逐场景中有效地保证安全性,避免碰撞和超出感知范围的情况发生。与传统的强化学习算法相比,CSRL算法在保证安全性的同时,能够获得更好的控制性能,例如更快的追逐速度和更小的控制误差。具体性能数据未知,需要在论文中查找。
🎯 应用场景
该研究成果可应用于无人机编队控制、自动驾驶车辆的避障导航、机器人协作等领域。通过保证智能体在复杂环境中的安全性,可以提高系统的可靠性和鲁棒性,降低安全风险,具有重要的实际应用价值和广阔的应用前景。
📄 摘要(原文)
This paper addresses the target-pursuit problem, aiming to ensure each pursuer's safety regarding collision avoidance, sensing range, and input saturation. An input-constrained CBF is proposed to dynamically regulate the pursuer's control, ensuring effective target pursuit even when the target performs evasive maneuvers. To further ensure safety, two sets of CBF constraints are designed to regulate the pursuer's position, enabling it to keep the target within the sensing range while avoiding collision in complex environments with external disturbances. These three CBFs collectively form our safety filter, which filters unsafe outputs from RL by solving a Quadratic Program (QP). Finally, the safety filter, combined with a switch strategy that enhances the feasibility of solving its QP, constitutes the Control Barrier Function (CBF)-Safe Reinforcement Learning (CSRL) algorithm, whose solutions are proven to satisfy the Karush-Kuhn-Tucker (KKT) conditions for all safety constraints. Simulation results validate the effectiveness of the CSRL algorithm, demonstrating its ability to handle complex pursuit scenarios while maintaining safety and improving control performance.