IndusGCC: A Data Benchmark and Evaluation Framework for GUI-Based General Computer Control in Industrial Automation

📄 arXiv: 2509.01199v1 📥 PDF

作者: Xiaoran Yang, Yuyang Du, Kexin Chen, Soung Chang Liew, Jiamin Lu, Ziyu Guo, Xiaoyan Liu, Qun Yang, Shiqi Xu, Xingyu Fan, Yuchen Pan, Taoyong Cui, Hongyu Deng, Boris Dudder, Jianzhang Pan, Qun Fang, Pheng Ann Heng

分类: eess.SY

发布日期: 2025-09-01

🔗 代码/项目: GITHUB


💡 一句话要点

IndusGCC:面向工业自动化GUI通用计算机控制的数据集与评估框架

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 工业自动化 通用计算机控制 大型语言模型 图形用户界面 数据集 评估框架 人机交互 机器人控制

📋 核心要点

  1. 现有工业设备控制软件依赖GUI,需人工交互,阻碍了基于代码的自动化。
  2. 提出IndusGCC数据集和评估框架,利用LLM-GCC实现工业GUI自动化控制。
  3. 实验验证了LLM-GCC的潜力,并指出了其在工业应用中面临的挑战。

📝 摘要(中文)

随着工业4.0的发展,柔性制造已成为现代工业系统的基石,设备自动化在其中起着关键作用。然而,现有工业设备的控制软件通常依赖于图形用户界面(GUI),需要人工交互(如鼠标点击或屏幕触摸),这给基于代码的设备自动化带来了显著障碍。最近,基于大型语言模型的通用计算机控制(LLM-GCC)已成为一种有前景的GUI操作自动化方法。但是,工业环境带来了独特的挑战,包括视觉上多样化的、特定领域的界面以及需要高精度的关键任务。本文介绍了IndusGCC,这是首个为工业环境中的LLM-GCC量身定制的数据集和基准,涵盖了七个领域的448个真实任务,从机器人手臂控制到生产线配置。IndusGCC具有与设备软件进行多模态人机交互的数据,为GUI级别的代码生成提供了强大的监督。此外,我们提出了一个具有功能和结构指标的新型评估框架,以评估LLM生成的控制脚本。在主流LLM上的实验结果表明了LLM-GCC的潜力及其面临的挑战,为未来实现完全自动化工厂的研究奠定了坚实的基础。我们的数据和代码已公开发布。

🔬 方法详解

问题定义:现有工业控制软件依赖图形用户界面(GUI),需要人工操作,难以实现自动化。痛点在于缺乏适用于工业场景、能够有效训练和评估LLM-GCC的数据集和评估标准,导致LLM难以胜任工业控制任务。

核心思路:构建一个包含大量工业场景GUI操作数据的数据集IndusGCC,并设计一套评估框架,用于训练和评估LLM在工业控制任务中的表现。核心在于利用多模态人机交互数据监督GUI级别的代码生成,并从功能和结构两方面评估生成的控制脚本。

技术框架:IndusGCC包含数据集和评估框架两部分。数据集包含七个工业领域的448个真实任务,涵盖机器人手臂控制、生产线配置等。数据集中包含多模态人机交互数据,例如屏幕截图、鼠标点击位置、键盘输入等。评估框架包含功能性指标(例如任务完成率)和结构性指标(例如代码质量)。

关键创新:IndusGCC是首个专门为工业环境中的LLM-GCC量身定制的数据集和基准。它提供了丰富多样的工业场景数据,并设计了全面的评估框架,能够有效评估LLM在工业控制任务中的性能。与现有方法相比,IndusGCC更贴近实际工业应用,能够更好地推动LLM-GCC在工业领域的应用。

关键设计:IndusGCC数据集的关键设计在于收集真实工业场景中的人机交互数据,并对数据进行清洗和标注,以确保数据的质量和可用性。评估框架的关键设计在于设计功能性和结构性指标,能够全面评估LLM生成的控制脚本的性能。具体参数设置和网络结构取决于所使用的LLM模型。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文在主流LLM上进行了实验,结果表明LLM-GCC在工业控制任务中具有潜力,但也面临着挑战。实验结果为未来研究提供了重要的参考,并为进一步提升LLM-GCC在工业领域的应用奠定了基础。具体性能数据和对比基线未在摘要中明确给出,需查阅论文全文。

🎯 应用场景

该研究成果可应用于各种工业自动化场景,例如机器人控制、生产线配置、设备维护等。通过利用LLM-GCC,可以实现更灵活、更高效的工业生产,降低人工成本,提高生产效率。未来,该研究有望推动实现完全自动化的智能工厂。

📄 摘要(原文)

As Industry 4.0 progresses, flexible manufacturing has become a cornerstone of modern industrial systems, with equipment automation playing a pivotal role. However, existing control software for industrial equipment, typically reliant on graphical user interfaces (GUIs) that require human interactions such as mouse clicks or screen touches, poses significant barriers to the adoption of code-based equipment automation. Recently, Large Language Model-based General Computer Control (LLM-GCC) has emerged as a promising approach to automate GUI-based operations. However, industrial settings pose unique challenges, including visually diverse, domain-specific interfaces and mission-critical tasks demanding high precision. This paper introduces IndusGCC, the first dataset and benchmark tailored to LLM-GCC in industrial environments, encompassing 448 real-world tasks across seven domains, from robotic arm control to production line configuration. IndusGCC features multimodal human interaction data with the equipment software, providing robust supervision for GUI-level code generation. Additionally, we propose a novel evaluation framework with functional and structural metrics to assess LLM-generated control scripts. Experimental results on mainstream LLMs demonstrate both the potential of LLM-GCC and the challenges it faces, establishing a strong foundation for future research toward fully automated factories. Our data and code are publicly available at: \href{https://github.com/Golden-Arc/IndustrialLLM}{https://github.com/Golden-Arc/IndustrialLLM.