Learning to Provably Satisfy High Relative Degree Constraints for Black-Box Systems
作者: Jean-Baptiste Bouvier, Kartik Nagpal, Negar Mehr
分类: eess.SY
发布日期: 2024-07-29
备注: CDC 2024
💡 一句话要点
针对黑盒系统,提出可证明满足高相对阶约束的学习控制策略
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 强化学习 安全控制 约束满足 黑盒系统 高相对阶约束
📋 核心要点
- 现有强化学习方法在处理黑盒系统高相对阶约束时存在局限,如依赖模型、假设控制仿射性或仅通过奖励塑造避免违规。
- 该论文提出一种新颖的强化学习算法,通过使策略在不安全集周围呈仿射,来显式地执行高相对阶的仿射状态约束。
- 实验结果表明,该方法能够在Gym倒立摆和航天飞机着陆模拟中有效地执行硬约束,验证了其在复杂系统中的适用性。
📝 摘要(中文)
本文提出了一种学习控制策略的方法,该策略保证在与黑盒系统闭环时,满足具有高相对阶的仿射状态约束。先前的强化学习(RL)方法要么需要访问系统模型,要么假设控制仿射动力学,要么仅通过奖励塑造来抑制违规行为。最近,POLICEd RL解决了这些问题,并保证了黑盒系统的约束满足。然而,之前的工作只能执行相对阶为1的约束。为了弥补这一差距,我们设计了一种新颖的RL算法,专门用于在与黑盒控制系统闭环时,执行具有高相对阶的仿射状态约束。我们的关键见解是使学习到的策略在不安全集周围是仿射的,并使用该仿射区域来消散高相对阶约束的惯性。我们证明,这种策略保证了确定性系统的约束满足,同时与RL训练算法的选择无关。我们的结果证明了我们的方法在Gym倒立摆和航天飞机着陆模拟中执行硬约束的能力。
🔬 方法详解
问题定义:论文旨在解决黑盒系统中高相对阶仿射状态约束的满足问题。现有强化学习方法在处理此类问题时,通常需要访问系统模型,或者假设系统具有控制仿射动力学特性,或者仅仅通过奖励塑造来避免违反约束,这些方法都存在局限性。POLICEd RL虽然解决了部分问题,但仅限于相对阶为1的约束。
核心思路:论文的核心思路是设计一种强化学习策略,该策略在不安全集周围呈现仿射特性。通过这种仿射特性,策略能够有效地消散高相对阶约束带来的惯性,从而保证系统状态始终满足约束条件。这种方法的核心在于利用仿射区域来控制系统状态,使其远离不安全区域。
技术框架:该算法主要包含以下几个阶段:首先,定义系统的状态空间和动作空间,以及需要满足的仿射状态约束。然后,设计一个强化学习策略网络,该网络能够根据当前状态输出控制动作。关键在于,该策略网络的设计需要保证在不安全集周围呈现仿射特性。最后,使用强化学习算法(如TRPO、PPO等)训练该策略网络,使其能够有效地满足约束条件。
关键创新:该论文最重要的技术创新在于提出了一种能够显式地处理高相对阶约束的强化学习算法。与现有方法相比,该方法不需要访问系统模型,也不需要假设系统具有特定的动力学特性。此外,该方法通过在不安全集周围引入仿射特性,能够更有效地控制系统状态,从而保证约束的满足。这种方法的另一个创新点在于,它与具体的强化学习训练算法无关,具有较强的通用性。
关键设计:策略网络的设计是关键。策略网络被设计为在不安全集附近具有仿射性质,这意味着策略的输出可以表示为状态的线性函数加上一个常数项。具体实现上,可以使用神经网络来逼近这个仿射函数,并使用特定的损失函数来鼓励策略在不安全集附近保持仿射特性。此外,为了保证策略的安全性,可以引入一个安全层,该安全层能够对策略的输出进行修正,以确保系统状态始终满足约束条件。损失函数的设计也至关重要,需要综合考虑约束满足、性能优化和仿射特性保持等多个方面。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法能够在Gym倒立摆和航天飞机着陆模拟等复杂环境中有效地执行硬约束。与现有方法相比,该方法能够在不访问系统模型的情况下,保证系统状态始终满足约束条件。具体性能数据未知,但论文强调了其方法在保证约束满足方面的优势。
🎯 应用场景
该研究成果可广泛应用于需要满足安全约束的控制系统中,例如自动驾驶、机器人导航、航空航天等领域。在这些领域中,系统需要在复杂环境中安全地执行任务,同时需要满足各种约束条件。该方法能够为这些系统提供一种可靠的控制策略,从而提高系统的安全性和可靠性,具有重要的实际应用价值和未来发展潜力。
📄 摘要(原文)
In this paper, we develop a method for learning a control policy guaranteed to satisfy an affine state constraint of high relative degree in closed loop with a black-box system. Previous reinforcement learning (RL) approaches to satisfy safety constraints either require access to the system model, or assume control affine dynamics, or only discourage violations with reward shaping. Only recently have these issues been addressed with POLICEd RL, which guarantees constraint satisfaction for black-box systems. However, this previous work can only enforce constraints of relative degree 1. To address this gap, we build a novel RL algorithm explicitly designed to enforce an affine state constraint of high relative degree in closed loop with a black-box control system. Our key insight is to make the learned policy be affine around the unsafe set and to use this affine region to dissipate the inertia of the high relative degree constraint. We prove that such policies guarantee constraint satisfaction for deterministic systems while being agnostic to the choice of the RL training algorithm. Our results demonstrate the capacity of our approach to enforce hard constraints in the Gym inverted pendulum and on a space shuttle landing simulation.