From learning to safety: A Direct Data-Driven Framework for Constrained Control
作者: Kanghui He, Shengling Shi, Ton van den Boom, Bart De Schutter
分类: eess.SY
发布日期: 2025-05-21 (更新: 2026-01-13)
💡 一句话要点
提出直接数据驱动安全滤波框架,解决模型无关学习控制中的安全约束问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 安全控制 数据驱动控制 模型无关学习 控制障碍函数 约束优化
📋 核心要点
- 模型无关学习控制中,保证满足约束的安全性是一个关键挑战,现有安全滤波器依赖于物理或数据驱动的预测模型,限制了其应用。
- 论文提出一种基于优化的控制框架,直接从数据中学习安全控制输入,并使用状态-动作控制障碍函数(SACBF)作为安全证书。
- 通过车辆控制仿真,验证了该框架在约束满足和任务完成方面优于基于模型的方法和奖励塑造,展现了其优越性能。
📝 摘要(中文)
本文提出了一种新的基于优化的控制框架,该框架直接从数据中确定安全的控制输入,从而确保学习控制中的安全性(即满足约束)。该框架的关键在于可以利用任意模型无关的学习算法进行更新,以追求最优性能。论文提出了直接数据驱动安全滤波器(3DSF)的概念,并采用了一种新颖的安全证书,即状态-动作控制障碍函数(SACBF)。论文提出了三种不同的SACBF学习方案。此外,基于输入-状态安全分析,提出了误差-状态安全分析框架,即使存在学习误差,也能提供关于安全性和递归可行性的形式化保证。该控制框架通过将性能优化与安全执行分离,弥合了模型无关学习控制和约束控制之间的差距。车辆控制的仿真结果表明,与基于模型的方法和奖励塑造相比,该方法在约束满足和任务完成方面表现出更优越的性能。
🔬 方法详解
问题定义:论文旨在解决模型无关学习控制中,如何保证控制过程满足安全约束的问题。现有基于模型的安全滤波器依赖于精确的系统模型,这在复杂或未知的环境中难以获得,限制了其在模型无关学习控制中的应用。因此,如何在不依赖精确模型的情况下,设计安全控制器是本研究要解决的核心问题。
核心思路:论文的核心思路是直接从数据中学习一个安全滤波器,该滤波器能够根据当前状态和动作,判断控制输入是否安全,并将其修正到安全区域。这种方法避免了对系统模型的依赖,可以直接应用于模型无关的学习控制算法。通过引入状态-动作控制障碍函数(SACBF),将安全约束转化为优化问题,从而保证控制输入的安全性。
技术框架:该框架主要包含以下几个模块:1)数据采集模块:收集系统状态、动作和约束相关的数据。2)SACBF学习模块:利用采集的数据,通过三种不同的方案学习SACBF。3)安全滤波器模块:基于学习到的SACBF,设计优化问题,将不安全的控制输入修正为安全的控制输入。4)控制执行模块:将修正后的安全控制输入作用于系统。整个框架将性能优化(通过任意模型无关学习算法实现)与安全执行(通过安全滤波器实现)解耦,从而保证了控制系统的安全性和性能。
关键创新:论文的关键创新在于提出了直接数据驱动安全滤波器(3DSF)和状态-动作控制障碍函数(SACBF)。3DSF可以直接从数据中学习安全控制策略,无需依赖系统模型。SACBF将安全约束与控制输入联系起来,使得安全滤波器的设计更加直接和有效。此外,论文还提出了误差-状态安全分析框架,为学习误差下的安全性和递归可行性提供了形式化保证。
关键设计:论文提出了三种不同的SACBF学习方案,包括基于回归、基于分类和基于优化的方法。具体的技术细节包括:1)SACBF的定义:SACBF是一个关于状态和动作的函数,其值大于零表示安全,小于零表示不安全。2)优化问题的设计:安全滤波器通过求解一个优化问题来修正控制输入,目标是最小化修正量,同时保证修正后的控制输入满足SACBF约束。3)误差-状态安全分析:通过分析学习误差对系统安全性的影响,设计鲁棒的安全滤波器,保证在存在学习误差的情况下,系统仍然能够保持安全。
🖼️ 关键图片
📊 实验亮点
论文通过车辆控制仿真验证了所提出框架的有效性。实验结果表明,与基于模型的方法和奖励塑造相比,该框架在约束满足方面表现出显著的优势,能够更有效地保证车辆在安全区域内行驶。此外,该框架在任务完成方面也表现出优越的性能,能够更快地达到目标位置,证明了其在安全性和性能方面的综合优势。
🎯 应用场景
该研究成果可广泛应用于机器人、自动驾驶、无人机等需要安全约束的控制领域。例如,在自动驾驶中,可以利用该框架保证车辆在行驶过程中不发生碰撞;在机器人控制中,可以保证机器人不超出工作空间或与其他物体发生碰撞。该方法通过解耦性能优化和安全执行,为复杂系统的安全控制提供了一种新的解决方案,具有重要的实际应用价值和广阔的未来发展前景。
📄 摘要(原文)
Ensuring safety in the sense of constraint satisfaction for learning-based control is a critical challenge, especially in the model-free case. While safety filters address this challenge in the model-based setting by modifying unsafe control inputs, they typically rely on predictive models derived from physics or data. This reliance limits their applicability for advanced model-free learning control methods. To address this gap, we propose a new optimization-based control framework that determines safe control inputs directly from data. The benefit of the framework is that it can be updated through arbitrary model-free learning algorithms to pursue optimal performance. As a key component, the concept of direct data-driven safety filters (3DSF) is first proposed. The framework employs a novel safety certificate, called the state-action control barrier function (SACBF). We present three different schemes to learn the SACBF. Furthermore, based on input-to-state safety analysis, we present the error-to-state safety analysis framework, which provides formal guarantees on safety and recursive feasibility even in the presence of learning inaccuracies. The proposed control framework bridges the gap between model-free learning-based control and constrained control, by decoupling performance optimization from safety enforcement. Simulations on vehicle control illustrate the superior performance regarding constraint satisfaction and task achievement compared to model-based methods and reward shaping.