Beyond touch-based HMI: Control your machines in natural language by utilizing large language models and OPC UA
作者: Bernd Hofmann, Sven Kreitlein, Joerg Franke, Patrick Bruendl
分类: cs.HC, cs.AI
发布日期: 2025-10-13
💡 一句话要点
提出基于LLM和OPC UA的自然语言人机交互方法,提升工业控制便捷性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 自然语言处理 人机交互 大型语言模型 OPC UA 工业控制 自动化 智能制造
📋 核心要点
- 现有工业人机界面主要依赖触控操作,不够直观,限制了操作的便捷性和灵活性。
- 利用大型语言模型作为Agent,结合OPC UA标准,实现自然语言控制机器,无需复杂编程。
- 实验结果表明,该方法在控制西门子PLC时具有较高的准确率,验证了其可行性。
📝 摘要(中文)
本文提出了一种基于Agent的方案,旨在实现更自然的人机交互。该方案利用大型语言模型(LLM)结合工具和OPC UA通信标准,通过自然语言控制机器。与目前主流的触控交互方式不同,该方案允许操作员通过语音或文本与机器进行交互。例如,可以发送“请将1号机器的温度降低20%,并将2号机器的电机转速设置为5000 rpm”之类的指令。LLM接收用户输入,并选择三个预定义工具之一,这些工具连接到OPC UA服务器,以更改或读取节点的值。然后,工具执行的结果被传递回LLM,LLM再向用户提供最终响应。该方法具有通用性,可以应用于任何支持OPC UA标准的机器。LLM无需微调或训练数据,只需在系统提示中包含相关的机器凭据和参数字典。该方法在西门子S7-1500可编程逻辑控制器上进行了评估,案例研究包含50个合成生成的命令,涉及五个不同的模型。结果表明成功率很高,专有的GPT 5模型实现了96.0%到98.0%的准确率,而开源模型达到了高达90.0%的准确率。这项实证研究提出的方法有助于推动工业人机界面中自然交互的发展。
🔬 方法详解
问题定义:现有工业控制系统的人机交互界面主要依赖于触控操作,这种方式不够直观,且在某些场景下(例如需要同时观察多个参数或进行复杂操作时)效率较低。操作人员需要经过专门培训才能熟练使用,并且容易出现误操作。因此,如何设计一种更自然、更便捷的人机交互方式,是当前工业控制领域面临的一个重要问题。
核心思路:本文的核心思路是利用大型语言模型(LLM)的自然语言理解和生成能力,将用户的自然语言指令转化为机器可以理解和执行的控制命令。通过OPC UA通信标准,LLM可以与机器进行数据交互,实现对机器的控制。这种方式无需用户进行复杂的编程或学习特定的操作界面,只需通过自然语言即可完成控制任务。
技术框架:该方案采用基于Agent的架构,主要包含以下几个模块:1) 用户输入模块:接收用户的自然语言指令。2) LLM模块:负责理解用户指令,并选择合适的工具。3) 工具模块:包含三个预定义的工具,用于连接OPC UA服务器,读取或修改节点的值。4) OPC UA服务器:与机器进行数据交互。5) 响应模块:将LLM的响应返回给用户。整个流程如下:用户输入自然语言指令 -> LLM解析指令并选择工具 -> 工具连接OPC UA服务器执行操作 -> OPC UA服务器返回结果 -> LLM生成响应 -> 用户接收响应。
关键创新:该方法最重要的创新点在于将大型语言模型应用于工业控制领域,实现了自然语言人机交互。与传统的触控操作相比,该方法更加直观、便捷,降低了操作难度。此外,该方法具有通用性,可以应用于任何支持OPC UA标准的机器。无需对LLM进行微调或训练,只需在系统提示中包含相关的机器凭据和参数字典。
关键设计:该方法的关键设计包括:1) 三个预定义工具的设计,分别用于读取、写入和查询OPC UA节点的值。2) 系统提示的设计,包含了机器的凭据和参数字典,用于指导LLM正确理解用户指令。3) LLM的选择,实验中使用了专有的GPT 5模型和开源模型,并比较了它们的性能。
📊 实验亮点
实验结果表明,该方法在控制西门子S7-1500 PLC时具有较高的准确率。专有的GPT 5模型实现了96.0%到98.0%的准确率,而开源模型也达到了高达90.0%的准确率。这些结果验证了该方法的可行性和有效性,表明其在工业控制领域具有良好的应用前景。
🎯 应用场景
该研究成果可广泛应用于各种工业自动化场景,例如智能制造、机器人控制、过程监控等。通过自然语言交互,操作人员可以更方便地控制和管理机器设备,提高生产效率和安全性。未来,该技术有望进一步发展,实现更加智能化和自主化的工业控制系统。
📄 摘要(原文)
This paper proposes an agent-based approach toward a more natural interface between humans and machines. Large language models equipped with tools and the communication standard OPC UA are utilized to control machines in natural language. Instead of touch interaction, which is currently the state-of-the-art medium for interaction in operations, the proposed approach enables operators to talk or text with machines. This allows commands such as 'Please decrease the temperature by 20 % in machine 1 and set the motor speed to 5000 rpm in machine 2.' The large language model receives the user input and selects one of three predefined tools that connect to an OPC UA server and either change or read the value of a node. Afterwards, the result of the tool execution is passed back to the language model, which then provides a final response to the user. The approach is universally designed and can therefore be applied to any machine that supports the OPC UA standard. The large language model is neither fine-tuned nor requires training data, only the relevant machine credentials and a parameter dictionary are included within the system prompt. The approach is evaluated on a Siemens S7-1500 programmable logic controller with four machine parameters in a case study of fifty synthetically generated commands on five different models. The results demonstrate high success rate, with proprietary GPT 5 models achieving accuracies between 96.0 % and 98.0 %, and open-weight models reaching up to 90.0 %. The proposed approach of this empirical study contributes to advancing natural interaction in industrial human-machine interfaces.