CPS-LLM: Large Language Model based Safe Usage Plan Generator for Human-in-the-Loop Human-in-the-Plant Cyber-Physical System

📄 arXiv: 2405.11458v1 📥 PDF

作者: Ayan Banerjee, Aranyak Maity, Payal Kamboj, Sandeep K. S. Gupta

分类: cs.AI, eess.SY

发布日期: 2024-05-19

备注: Accepted for publication in AAAI 2024, Planning for Cyber Physical Systems


💡 一句话要点

CPS-LLM:基于大语言模型的人机协同安全使用计划生成器

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 赛博物理系统 人机协同 指令调优 安全控制

📋 核心要点

  1. 现有方法难以保证LLM生成的计划在赛博物理系统中既可行又对人类用户安全,存在潜在风险。
  2. CPS-LLM通过指令调优框架重新训练LLM,使其生成的计划与物理系统动力学对齐,并保障用户安全。
  3. CPS-LLM集成了物理动力学系数估计器和基于动态系统轨迹的LLM训练,提升了计划的可行性和安全性。

📝 摘要(中文)

本文探讨了在大语言模型(LLM)在人机协同的赛博物理系统(CPS)中的应用,旨在将高级提示转化为个性化的行动计划,并进一步将该计划转化为由真实世界CPS控制器自动执行的顺序决策推理,以实现控制目标。研究表明,对LLM进行上下文处理使其能够生成特定领域的计划相对简单。然而,这些计划可能对于物理系统来说是不可行的,或者对于人类用户来说是不安全的。为了解决这个问题,我们提出了CPS-LLM,这是一个使用指令调优框架重新训练的LLM,它确保生成的计划不仅与CPS的物理系统动力学对齐,而且对人类用户也是安全的。CPS-LLM由两个创新组件组成:a) 基于液体时间常数神经网络的物理动力学系数估计器,可以推导出具有一些未测量状态变量的动力学模型的系数;b) 然后使用模型系数,通过包含来自动态系统的轨迹和相应的模型系数的提示来训练LLM。我们表明,当CPS-LLM与上下文聊天机器人(如BARD)集成时,它可以生成可行且安全的计划,以管理外部事件,例如1型糖尿病患者使用的自动胰岛素输送系统的膳食。

🔬 方法详解

问题定义:论文旨在解决人机协同赛博物理系统(CPS)中,如何利用大语言模型(LLM)生成既符合物理系统约束,又对人类用户安全的行动计划的问题。现有方法生成的计划可能不符合实际物理系统的动力学特性,或者对用户存在潜在的安全风险,导致计划无法执行或造成危害。

核心思路:论文的核心思路是利用指令调优框架,对LLM进行重新训练,使其能够理解并遵循物理系统的动力学约束和安全规则。通过将物理系统的状态信息和安全约束融入到LLM的训练过程中,使LLM能够生成可行且安全的行动计划。

技术框架:CPS-LLM的整体框架包含两个主要模块:1) 物理动力学系数估计器:使用液体时间常数神经网络(Liquid Time Constant Neural Network)估计物理系统的动力学模型系数,即使存在未测量的状态变量也能进行估计。2) 指令调优的LLM:使用估计得到的动力学模型系数,以及从动态系统中获取的轨迹数据,对LLM进行训练。训练过程中,使用包含系统状态和模型系数的提示(prompts)来引导LLM学习生成符合物理规律的计划。

关键创新:论文的关键创新在于将物理系统的动力学模型与LLM的训练过程相结合。传统的LLM通常缺乏对物理世界约束的理解,而CPS-LLM通过物理动力学系数估计器和指令调优框架,将物理系统的知识融入到LLM中,使其能够生成更符合实际情况的计划。

关键设计:物理动力学系数估计器采用液体时间常数神经网络,能够处理具有未测量状态变量的动态系统。指令调优框架使用包含动态系统轨迹和模型系数的提示来训练LLM,损失函数的设计需要考虑计划的可行性和安全性,例如可以通过引入惩罚项来避免生成违反安全规则的计划。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文通过实验验证了CPS-LLM在自动胰岛素输送系统中的有效性。实验结果表明,与传统的LLM相比,CPS-LLM能够生成更可行、更安全的膳食计划,有效控制患者的血糖水平,并降低低血糖风险。具体性能数据和提升幅度在论文中进行了详细展示。

🎯 应用场景

CPS-LLM可应用于各种人机协同的赛博物理系统,例如自动驾驶、机器人控制、智能制造和医疗健康等领域。在自动胰岛素输送系统中,CPS-LLM可以根据患者的血糖水平和饮食计划,生成安全且有效的胰岛素输送方案,提高患者的生活质量。未来,该技术有望实现更智能、更安全的自动化系统。

📄 摘要(原文)

We explore the usage of large language models (LLM) in human-in-the-loop human-in-the-plant cyber-physical systems (CPS) to translate a high-level prompt into a personalized plan of actions, and subsequently convert that plan into a grounded inference of sequential decision-making automated by a real-world CPS controller to achieve a control goal. We show that it is relatively straightforward to contextualize an LLM so it can generate domain-specific plans. However, these plans may be infeasible for the physical system to execute or the plan may be unsafe for human users. To address this, we propose CPS-LLM, an LLM retrained using an instruction tuning framework, which ensures that generated plans not only align with the physical system dynamics of the CPS but are also safe for human users. The CPS-LLM consists of two innovative components: a) a liquid time constant neural network-based physical dynamics coefficient estimator that can derive coefficients of dynamical models with some unmeasured state variables; b) the model coefficients are then used to train an LLM with prompts embodied with traces from the dynamical system and the corresponding model coefficients. We show that when the CPS-LLM is integrated with a contextualized chatbot such as BARD it can generate feasible and safe plans to manage external events such as meals for automated insulin delivery systems used by Type 1 Diabetes subjects.