SmartFlow: Robotic Process Automation using LLMs
作者: Arushi Jain, Shubham Paliwal, Monika Sharma, Lovekesh Vig, Gautam Shroff
分类: cs.RO, cs.CV
发布日期: 2024-05-21
备注: 32nd ACM International Conference on Information and Knowledge Management
💡 一句话要点
SmartFlow:利用大型语言模型实现更智能的机器人流程自动化
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 机器人流程自动化 大型语言模型 计算机视觉 自然语言处理 用户界面理解
📋 核心要点
- 现有RPA系统依赖像素级编码,缺乏对GUI元素的视觉理解,难以适应复杂流程和多变的界面布局。
- SmartFlow结合LLM和深度学习图像理解,将GUI元素转化为文本表示,驱动LLM生成动作序列,实现自动化。
- 通过在包含多样化企业应用布局的数据集上评估,证明SmartFlow具有良好的鲁棒性和泛化能力。
📝 摘要(中文)
机器人流程自动化(RPA)系统在处理复杂流程和多样化屏幕布局时面临挑战,这些场景需要类似人类的高级决策能力。传统系统通常依赖于像素级编码,通过拖放或Selenium等自动化框架创建导航工作流,而非对屏幕元素进行视觉理解。本文提出了SmartFlow,一种基于AI的RPA系统,它结合了预训练的大型语言模型(LLM)和基于深度学习的图像理解。该系统无需人工干预即可适应新场景,包括用户界面更改和输入数据变化。SmartFlow利用计算机视觉和自然语言处理来感知图形用户界面(GUI)上的可见元素,并将其转换为文本表示。然后,LLM利用这些信息生成一系列动作,由脚本引擎执行以完成分配的任务。为了评估SmartFlow的有效性,我们开发了一个包含各种布局的通用企业应用程序的数据集,并将其发布用于研究。对该数据集的评估表明,SmartFlow在不同的布局和应用程序中表现出鲁棒性。SmartFlow可以自动化各种业务流程,如表单填写、客户服务、发票处理和后台操作。因此,SmartFlow可以通过自动化更大比例的基于屏幕的工作流程来帮助组织提高生产力。演示视频和数据集可在https://smartflow-4c5a0a.webflow.io/ 获取。
🔬 方法详解
问题定义:现有RPA系统在处理复杂业务流程时,需要人工预先定义精确的规则和工作流,难以适应用户界面变化和数据输入的多样性。传统方法依赖于像素级别的操作,缺乏对屏幕元素的语义理解,导致自动化流程脆弱且难以维护。
核心思路:SmartFlow的核心思路是将屏幕上的GUI元素转化为文本描述,利用LLM强大的自然语言理解和生成能力,将业务流程转化为一系列可执行的动作序列。通过结合计算机视觉和自然语言处理,赋予RPA系统更强的适应性和智能化水平。
技术框架:SmartFlow系统主要包含以下几个模块:1) GUI元素感知模块,利用计算机视觉技术检测和识别屏幕上的各种元素,如按钮、文本框、标签等;2) 文本表示模块,将检测到的GUI元素转化为文本描述,包括元素类型、位置、文本内容等;3) LLM驱动的动作生成模块,利用LLM根据文本描述生成一系列动作指令,例如点击按钮、输入文本等;4) 脚本引擎,执行LLM生成的动作指令,完成自动化任务。
关键创新:SmartFlow的关键创新在于将LLM引入RPA系统,利用LLM的语义理解和推理能力,实现了对GUI元素的更高级别的理解和操作。与传统基于像素级操作的RPA系统相比,SmartFlow能够更好地适应用户界面变化和数据输入的多样性,提高了自动化流程的鲁棒性和灵活性。
关键设计:SmartFlow使用预训练的LLM,并通过微调来适应特定的RPA任务。GUI元素感知模块使用深度学习模型,例如目标检测模型,来检测屏幕上的各种元素。文本表示模块将GUI元素转化为结构化的文本描述,例如JSON格式。脚本引擎使用自动化框架,例如Selenium,来执行LLM生成的动作指令。
🖼️ 关键图片
📊 实验亮点
SmartFlow在包含各种布局的通用企业应用程序数据集上进行了评估,结果表明其具有良好的鲁棒性,能够适应不同的布局和应用程序。相较于传统RPA系统,SmartFlow在处理复杂流程和多变界面时表现出更强的适应性和智能化水平,能够自动化更大比例的基于屏幕的工作流程。
🎯 应用场景
SmartFlow可广泛应用于各种业务流程自动化场景,如表单填写、客户服务、发票处理、后台操作等。它能够显著提高工作效率,降低人工成本,并减少人为错误。未来,SmartFlow有望与更多AI技术融合,实现更高级别的自动化和智能化,例如流程优化、异常检测等。
📄 摘要(原文)
Robotic Process Automation (RPA) systems face challenges in handling complex processes and diverse screen layouts that require advanced human-like decision-making capabilities. These systems typically rely on pixel-level encoding through drag-and-drop or automation frameworks such as Selenium to create navigation workflows, rather than visual understanding of screen elements. In this context, we present SmartFlow, an AI-based RPA system that uses pre-trained large language models (LLMs) coupled with deep-learning based image understanding. Our system can adapt to new scenarios, including changes in the user interface and variations in input data, without the need for human intervention. SmartFlow uses computer vision and natural language processing to perceive visible elements on the graphical user interface (GUI) and convert them into a textual representation. This information is then utilized by LLMs to generate a sequence of actions that are executed by a scripting engine to complete an assigned task. To assess the effectiveness of SmartFlow, we have developed a dataset that includes a set of generic enterprise applications with diverse layouts, which we are releasing for research use. Our evaluations on this dataset demonstrate that SmartFlow exhibits robustness across different layouts and applications. SmartFlow can automate a wide range of business processes such as form filling, customer service, invoice processing, and back-office operations. SmartFlow can thus assist organizations in enhancing productivity by automating an even larger fraction of screen-based workflows. The demo-video and dataset are available at https://smartflow-4c5a0a.webflow.io/.