Compositional shield synthesis for safe reinforcement learning in partial observability
作者: Steven Carr, Georgios Bakirtzis, Ufuk Topcu
分类: eess.SY
发布日期: 2025-09-15
💡 一句话要点
提出一种组合式安全盾牌合成方法,用于部分可观测环境下的安全强化学习。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 安全强化学习 部分可观测性 安全盾牌 组合式合成 POMDP
📋 核心要点
- 强化学习在部分可观测环境中面临安全挑战,现有整体安全盾牌方法计算成本高昂,难以扩展。
- 提出组合式安全盾牌合成方法,将安全要求分解为多个部分,分别建模,降低计算复杂度,提高可扩展性。
- 实验表明,该方法在保证安全性的同时,能使智能体收敛到更高的期望奖励,并减少训练次数,尤其在稀疏奖励环境中。
📝 摘要(中文)
强化学习(RL)算法控制的智能体经常会进入不安全状态,尤其是在不确定和部分可观测的环境中。部分可观测马尔可夫决策过程(POMDP)为研究这种具有有限感知的场景提供了一个自然的环境。安全盾牌通过过滤不良动作来确保安全RL,从而在智能体的策略中保持安全要求。然而,在复杂的部署场景中,合成整体安全盾牌的计算成本很高。本文提出通过对安全要求进行分部分建模来组合合成安全盾牌,从而提高可扩展性。特别地,使用RL算法的POMDP形式的问题公式表明,配备了组合式安全盾牌的RL智能体,除了安全之外,还能收敛到更高的期望奖励值。通过使用子问题公式,我们保留并提高了安全盾牌智能体的能力,使其比未安全盾牌的智能体需要更少的训练次数,尤其是在稀疏奖励设置中。具体而言,我们发现组合式安全盾牌合成允许RL智能体在比其他最先进的基于模型的方法大两个数量级的环境中保持安全。
🔬 方法详解
问题定义:在部分可观测马尔可夫决策过程(POMDP)中,如何设计一个安全盾牌,保证强化学习智能体在学习过程中不进入不安全状态。现有方法,如整体安全盾牌,在复杂环境中计算量巨大,难以扩展。痛点在于无法有效处理大规模、高复杂度的安全约束。
核心思路:将复杂的安全约束分解为多个子约束,针对每个子约束分别设计安全盾牌,然后将这些子盾牌组合起来,形成一个整体的安全盾牌。这样可以显著降低每个子盾牌的计算复杂度,从而提高整体的可扩展性。核心在于“分而治之”,将一个复杂问题分解为多个简单问题。
技术框架:整体框架包括以下几个主要阶段:1) 安全需求分解:将整体安全需求分解为多个独立的子需求。2) 子盾牌合成:针对每个子需求,使用强化学习或其他方法合成一个子盾牌。3) 盾牌组合:将所有子盾牌组合成一个整体的安全盾牌。4) 强化学习训练:使用带有安全盾牌的强化学习算法训练智能体。
关键创新:关键创新在于组合式安全盾牌的合成方法。与传统的整体安全盾牌方法相比,该方法通过分解安全需求,显著降低了计算复杂度,提高了可扩展性。此外,该方法还能够更好地利用问题的结构信息,从而提高安全盾牌的性能。
关键设计:子盾牌的合成可以使用各种强化学习算法,例如Q-learning、SARSA等。盾牌的组合可以使用逻辑运算,例如AND、OR等。关键参数包括子需求的划分方式、子盾牌的训练参数、盾牌组合的逻辑运算类型等。损失函数的设计需要考虑安全性和奖励两个方面,目标是最大化奖励的同时,保证智能体的安全性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,组合式安全盾牌合成方法在保证安全性的同时,能够使RL智能体收敛到更高的期望奖励值。与未安全盾牌的智能体相比,该方法能够减少训练次数,尤其是在稀疏奖励设置中。具体而言,该方法允许RL智能体在比其他最先进的基于模型的方法大两个数量级的环境中保持安全。
🎯 应用场景
该研究成果可应用于机器人、自动驾驶、智能制造等领域,在这些领域中,智能体需要在不确定和部分可观测的环境中安全地执行任务。通过使用组合式安全盾牌,可以有效地防止智能体进入不安全状态,从而提高系统的可靠性和安全性。未来可以进一步研究如何自动地分解安全需求,以及如何设计更有效的盾牌组合方法。
📄 摘要(原文)
Agents controlled by the output of reinforcement learning (RL) algorithms often transition to unsafe states, particularly in uncertain and partially observable environments. Partially observable Markov decision processes (POMDPs) provide a natural setting for studying such scenarios with limited sensing. Shields filter undesirable actions to ensure safe RL by preserving safety requirements in the agents' policy. However, synthesizing holistic shields is computationally expensive in complex deployment scenarios. We propose the compositional synthesis of shields by modeling safety requirements by parts, thereby improving scalability. In particular, problem formulations in the form of POMDPs using RL algorithms illustrate that an RL agent equipped with the resulting compositional shielding, beyond being safe, converges to higher values of expected reward. By using subproblem formulations, we preserve and improve the ability of shielded agents to require fewer training episodes than unshielded agents, especially in sparse-reward settings. Concretely, we find that compositional shield synthesis allows an RL agent to remain safe in environments two orders of magnitude larger than other state-of-the-art model-based approaches.