Robust Koopman Control Barrier Filters for Safe Actor-Critic Reinforcement Learning
作者: Dhruv S. Kushwaha, Zoleikha A. Biron
分类: cs.RO, cs.LG, eess.SY
发布日期: 2026-05-26
备注: 17 pages, 7 figures
🔗 代码/项目: GITHUB
💡 一句话要点
提出鲁棒Koopman控制障碍过滤器以解决安全强化学习问题
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 安全强化学习 控制障碍函数 Koopman预测器 演员-评论家框架 二次规划 动态模型 高维任务
📋 核心要点
- 现有的安全强化学习方法在满足状态和输入约束方面存在局限性,尤其是在动态模型不准确的情况下。
- 本文提出鲁棒Koopman-CBF SAC框架,通过学习Koopman预测器和构建仿射CBF约束来增强安全性,减少对过滤器的依赖。
- 实验结果显示,该方法在CartPole稳定性和跟踪任务中实现零约束违反,并在高维任务中展现出潜在的改进空间。
📝 摘要(中文)
安全强化学习(RL)在机器人系统中要求策略在训练和部署过程中提高任务性能,同时满足状态和输入约束。控制障碍函数(CBFs)提供了一种通过最小干预安全过滤器强制前向不变性的原则机制,但在无模型RL中的应用受到准确动态和手工设计障碍证书的限制。本文提出了鲁棒Koopman-CBF SAC,这是一种安全过滤的演员-评论家框架,通过数据学习有限维Koopman预测器,在提升空间中构建仿射CBF约束,并通过二次规划安全层强制执行。为了考虑有限维Koopman近似误差,CBF条件使用从保留的回滚数据估计的投影残差边际进行收紧。实验结果表明,该方法在安全控制基准上实现了零约束违反,同时在高维任务中减少了某些设置下的违反情况。
🔬 方法详解
问题定义:本文旨在解决安全强化学习中策略在训练和部署过程中满足状态和输入约束的挑战。现有方法依赖于准确的动态模型和手工设计的障碍证书,限制了其应用。
核心思路:提出鲁棒Koopman-CBF SAC框架,通过从数据中学习有限维Koopman预测器,构建仿射CBF约束,并通过二次规划安全层强制执行,以增强策略的安全性和鲁棒性。
技术框架:该框架包括三个主要模块:1) 学习有限维Koopman预测器;2) 在提升空间中构建仿射CBF约束;3) 通过二次规划安全层执行约束。评论者在执行的安全动作上进行训练,而演员则朝向Koopman-CBF可行集进行正则化。
关键创新:最重要的创新在于引入了鲁棒的Koopman-CBF过滤器,能够在无模型RL中有效地处理动态近似误差,并通过投影残差边际收紧CBF条件。与现有方法相比,该方法减少了对手工设计的依赖。
关键设计:关键设计包括使用二次规划来实现安全层,设置适当的损失函数以平衡演员和评论者的训练,以及在高维任务中考虑高阶和多步Koopman-CBF扩展的潜力。
🖼️ 关键图片
📊 实验亮点
实验结果表明,鲁棒Koopman-CBF SAC在CartPole稳定性和跟踪任务中实现了零约束违反,且在高维Safety Gymnasium运动任务中减少了部分设置下的违反情况。这表明该方法在安全性和性能上均优于无约束的SAC基线。
🎯 应用场景
该研究的潜在应用领域包括机器人控制、自动驾驶和其他需要安全保障的强化学习任务。通过提供一种有效的安全过滤机制,能够在实际部署中提高系统的安全性和可靠性,具有重要的实际价值和未来影响。
📄 摘要(原文)
Safe reinforcement learning (RL) for robotic systems requires policies that improve task performance while satisfying state and input constraints during both training and deployment. Control barrier functions (CBFs) provide a principled mechanism for enforcing forward invariance through minimally invasive safety filters, but their use in model-free RL is limited by the need for accurate dynamics and hand-designed barrier certificates. We propose Robust Koopman-CBF SAC, a safety-filtered actor--critic framework that learns a finite-dimensional Koopman predictor from data, constructs affine CBF constraints in the lifted space, and enforces them through a quadratic-program safety layer. To account for finite-dimensional Koopman approximation error, the CBF condition is tightened using a projected residual margin estimated from held-out rollout data. The critic is trained on the executed safe action, while the actor is regularized toward the Koopman-CBF feasible set, reducing dependence on the filter over training. Across safe-control benchmarks, the method achieves zero constraint violations on CartPole stabilization and tracking while matching or exceeding unconstrained SAC returns. On high-dimensional Safety Gymnasium locomotion tasks, the method reduces violations in some settings but also exposes important limitations of first-order velocity barriers and linear EDMD models, motivating high-order and multi-step Koopman-CBF extensions. These results suggest that robust Koopman-CBF filters are a promising bridge between model-free RL and certifiable safety, while clarifying the structural conditions under which such filters remain effective. All code is available at \href{https://github.com/DhruvKushwaha/Koopman-CBF-Soft-Actor-Critic}{Github Repository}.