Provably Optimal Reinforcement Learning under Safety Filtering
作者: Donggeon David Oh, Duy P. Nguyen, Haimin Hu, Jaime F. Fisac
分类: cs.LG, cs.RO, eess.SY
发布日期: 2025-10-20
备注: 17 pages, 3 figures
💡 一句话要点
提出安全过滤下的可证明最优强化学习方法,解决安全约束下的性能下降问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 强化学习 安全过滤 安全约束 马尔可夫决策过程 最优控制
📋 核心要点
- 现有强化学习方法在安全关键场景中应用受限,缺乏正式的安全保证,容易出现灾难性故障。
- 论文提出一种基于安全过滤的强化学习方法,证明了在足够宽松的过滤器下,安全性和性能可以同时保证。
- 实验结果表明,该方法在Safety Gymnasium上实现了零违规,并且性能与未过滤的基线相匹配或超过。
📝 摘要(中文)
近期的强化学习(RL)进展使其能够应用于日益复杂的任务,但缺乏正式的安全保证仍然限制了其在安全关键环境中的应用。一种常见的实用方法是用安全过滤器增强RL策略,该过滤器会覆盖不安全的动作,以防止训练和部署期间的失败。然而,安全过滤通常被认为会牺牲性能并阻碍学习过程。我们表明,这种感知到的安全-性能权衡并非固有,并且首次证明,使用足够宽松的安全过滤器来强制执行安全性不会降低渐近性能。我们使用安全关键马尔可夫决策过程(SC-MDP)来形式化RL安全性,该过程需要绝对避免灾难性故障状态,而不是高概率避免。此外,我们定义了一个相关的过滤MDP,由于安全过滤器(被认为是环境的一部分),其中所有动作都会产生安全效果。我们的主要定理确定了(i)在过滤MDP中学习是绝对安全的,(ii)标准RL收敛适用于过滤MDP,以及(iii)在过滤MDP中任何最优的策略——当通过相同的过滤器执行时——实现了与SC-MDP中最佳安全策略相同的渐近回报,从而实现了安全执行和性能优化之间的完全分离。我们使用Safety Gymnasium和代表性任务和约束验证了该理论,观察到训练期间零违规,并且最终性能匹配或超过了未过滤的基线。总之,这些结果阐明了安全过滤学习中一个长期存在的问题,并为安全RL提供了一个简单、有原则的配方:训练和部署具有可用的最宽松安全过滤器的RL策略。
🔬 方法详解
问题定义:论文旨在解决在安全约束下强化学习的性能下降问题。现有方法通常采用安全过滤来避免不安全行为,但这种过滤往往被认为会牺牲性能,阻碍学习过程。因此,如何在保证安全性的前提下,最大化强化学习的性能是一个关键挑战。
核心思路:论文的核心思路是证明,如果安全过滤器足够宽松(即允许尽可能多的安全行为),那么安全过滤不会降低强化学习的渐近性能。通过将安全过滤视为环境的一部分,构建一个过滤后的MDP,可以在该MDP上进行标准的强化学习,同时保证安全性。
技术框架:论文的技术框架包括以下几个关键部分:1) 定义安全关键马尔可夫决策过程(SC-MDP),用于形式化安全约束;2) 定义过滤后的MDP,其中所有动作都通过安全过滤器,保证安全性;3) 证明在过滤后的MDP上学习是安全的,并且标准强化学习算法可以收敛;4) 证明在过滤后的MDP上学习到的最优策略,在原始SC-MDP中也能达到最优性能。
关键创新:论文最重要的技术创新在于证明了安全过滤和性能优化可以完全分离。这意味着可以在保证安全性的前提下,独立地优化强化学习策略,而无需担心安全过滤会降低性能。这种分离为安全强化学习提供了一个新的视角和方法。
关键设计:论文的关键设计包括:1) 安全过滤器的宽松性:过滤器需要足够宽松,以允许尽可能多的安全行为;2) 过滤后的MDP的构建:将安全过滤器视为环境的一部分,构建一个新的MDP,使得在该MDP上进行强化学习是安全的;3) 理论证明:通过严格的数学证明,证明了安全过滤不会降低渐近性能。
🖼️ 关键图片
📊 实验亮点
论文在Safety Gymnasium上进行了实验验证,结果表明,使用安全过滤的强化学习方法在训练过程中实现了零违规,并且最终性能与未过滤的基线相匹配或超过。这表明该方法在保证安全性的同时,不会降低强化学习的性能,甚至可以提高性能。
🎯 应用场景
该研究成果可应用于各种安全关键领域,如自动驾驶、机器人控制、医疗决策等。通过使用安全过滤器,可以保证系统在运行过程中不会出现灾难性故障,从而提高系统的可靠性和安全性。此外,该方法还可以加速强化学习的训练过程,降低训练成本。
📄 摘要(原文)
Recent advances in reinforcement learning (RL) enable its use on increasingly complex tasks, but the lack of formal safety guarantees still limits its application in safety-critical settings. A common practical approach is to augment the RL policy with a safety filter that overrides unsafe actions to prevent failures during both training and deployment. However, safety filtering is often perceived as sacrificing performance and hindering the learning process. We show that this perceived safety-performance tradeoff is not inherent and prove, for the first time, that enforcing safety with a sufficiently permissive safety filter does not degrade asymptotic performance. We formalize RL safety with a safety-critical Markov decision process (SC-MDP), which requires categorical, rather than high-probability, avoidance of catastrophic failure states. Additionally, we define an associated filtered MDP in which all actions result in safe effects, thanks to a safety filter that is considered to be a part of the environment. Our main theorem establishes that (i) learning in the filtered MDP is safe categorically, (ii) standard RL convergence carries over to the filtered MDP, and (iii) any policy that is optimal in the filtered MDP-when executed through the same filter-achieves the same asymptotic return as the best safe policy in the SC-MDP, yielding a complete separation between safety enforcement and performance optimization. We validate the theory on Safety Gymnasium with representative tasks and constraints, observing zero violations during training and final performance matching or exceeding unfiltered baselines. Together, these results shed light on a long-standing question in safety-filtered learning and provide a simple, principled recipe for safe RL: train and deploy RL policies with the most permissive safety filter that is available.