Tolerance of Reinforcement Learning Controllers against Deviations in Cyber Physical Systems

📄 arXiv: 2406.17066v1 📥 PDF

作者: Changjian Zhang, Parv Kapoor, Eunsuk Kang, Romulo Meira-Goes, David Garlan, Akila Ganlath, Shatadal Mishra, Nejib Ammar

分类: eess.SY, cs.AI, cs.LO, cs.RO

发布日期: 2024-06-24

备注: arXiv admin note: text overlap with arXiv:2311.07462


💡 一句话要点

提出基于仿真的容错性验证框架,用于评估强化学习控制的CPS在扰动下的性能

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 强化学习 信息物理系统 容错性 信号时序逻辑 仿真分析 控制器验证

📋 核心要点

  1. 强化学习控制器在信息物理系统中的应用日益广泛,但实际运行中存在扰动和不确定性,需要评估其容错性。
  2. 论文提出了一种新的容错性定义,并将其形式化为容错性伪造问题,旨在寻找导致系统需求违反的最小偏差。
  3. 通过仿真实验验证了所提出的分析框架和搜索启发式算法的有效性,能够有效地发现小的容错性违例。

📝 摘要(中文)

本文针对基于强化学习(RL)控制器的信息物理系统(CPS)在复杂物理环境中的部署,提出了一种新的容错性概念,用于描述控制器在系统偏差下满足信号时序逻辑(STL)描述的期望系统需求的能力。基于此,定义了一个新的分析问题,即容错性伪造问题,旨在寻找导致需求违反的最小偏差。提出了一个新颖的两层仿真分析框架和一个新的搜索启发式算法,用于寻找小的容错性违例。通过构建一系列基准问题,配置系统参数以表示系统中的不同类型的不确定性和扰动,验证了该方法的有效性,结果表明所提出的伪造方法和启发式算法能够有效地找到小的容错性违例。

🔬 方法详解

问题定义:论文旨在解决基于强化学习的控制系统在信息物理系统(CPS)中部署时,由于实际环境中的扰动和不确定性,导致系统无法满足预定义的性能需求的问题。现有方法缺乏对系统容错性的有效评估,难以保证系统在实际运行中的安全性和可靠性。

核心思路:论文的核心思路是将系统的容错性定义为控制器在系统偏差下满足信号时序逻辑(STL)描述的期望系统需求的能力。通过寻找导致需求违反的最小偏差,来评估系统的容错性。这种方法能够量化系统对扰动的敏感程度,并为控制器设计提供指导。

技术框架:论文提出了一个两层仿真分析框架。第一层是系统仿真层,用于模拟CPS在不同偏差下的运行情况。第二层是搜索优化层,使用启发式搜索算法寻找导致STL需求违反的最小偏差。该框架通过迭代仿真和优化,逐步逼近系统的容错边界。

关键创新:论文的关键创新在于提出了一个新的容错性定义,并将其形式化为容错性伪造问题。同时,提出了一个新颖的两层仿真分析框架和一个新的搜索启发式算法,用于解决该问题。与现有方法相比,该方法能够更有效地评估系统的容错性,并为控制器设计提供更有效的反馈。

关键设计:论文使用信号时序逻辑(STL)来描述系统的期望行为。搜索启发式算法采用了一种基于梯度的优化方法,用于寻找导致STL需求违反的最小偏差。具体参数设置和损失函数的设计取决于具体的CPS应用场景。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文通过构建一系列基准问题,验证了所提出的伪造方法和启发式算法的有效性。实验结果表明,该方法能够有效地找到小的容错性违例,从而评估系统的容错能力。具体的性能数据和对比基线在论文中进行了详细的展示。

🎯 应用场景

该研究成果可应用于各种基于强化学习控制器的信息物理系统,例如自动驾驶汽车、物联网设备和智慧城市。通过评估和提高系统的容错性,可以提高系统的安全性和可靠性,降低故障风险,并为控制器设计提供指导。

📄 摘要(原文)

Cyber-physical systems (CPS) with reinforcement learning (RL)-based controllers are increasingly being deployed in complex physical environments such as autonomous vehicles, the Internet-of-Things(IoT), and smart cities. An important property of a CPS is tolerance; i.e., its ability to function safely under possible disturbances and uncertainties in the actual operation. In this paper, we introduce a new, expressive notion of tolerance that describes how well a controller is capable of satisfying a desired system requirement, specified using Signal Temporal Logic (STL), under possible deviations in the system. Based on this definition, we propose a novel analysis problem, called the tolerance falsification problem, which involves finding small deviations that result in a violation of the given requirement. We present a novel, two-layer simulation-based analysis framework and a novel search heuristic for finding small tolerance violations. To evaluate our approach, we construct a set of benchmark problems where system parameters can be configured to represent different types of uncertainties and disturbancesin the system. Our evaluation shows that our falsification approach and heuristic can effectively find small tolerance violations.