AutoRPA: Efficient GUI Automation through LLM-Driven Code Synthesis from Interactions
作者: Minghao Chen, Xinyi Hu, Zhou Yu, Yufei Yin
分类: cs.AI
发布日期: 2026-05-20
备注: Accepted in ICML 2026
💡 一句话要点
AutoRPA:通过LLM驱动的代码合成,实现高效的GUI自动化
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: GUI自动化 机器人流程自动化 大型语言模型 代码合成 人机交互
📋 核心要点
- 现有基于LLM的GUI自动化方法,如ReAct,在处理重复性任务时效率较低,因为需要重复调用LLM进行推理。
- AutoRPA框架通过将ReAct风格智能体的决策逻辑提炼为鲁棒的RPA函数,实现了高效的GUI自动化。
- 实验结果表明,AutoRPA生成的RPA函数在解决类似任务时,token使用量减少了82%到96%,显著提高了运行时效率。
📝 摘要(中文)
基于大型语言模型(LLM)的智能体已展示出在与图形用户界面(GUI)进行多步骤交互方面的能力。虽然大多数研究侧重于提高单任务性能,但实际场景通常涉及重复性的GUI任务,为此重复调用LLM推理(即ReAct范式)效率低下。在LLM之前,传统的机器人流程自动化(RPA)提供运行时效率,但需要大量的人工来开发和维护。为了弥合这一差距,我们提出了AutoRPA,一个自动将ReAct风格智能体的决策逻辑提炼为鲁棒的RPA函数的框架。AutoRPA引入了两项核心创新:(1)一个翻译器-构建器流水线,其中翻译器智能体将硬编码的ReAct动作转换为软编码过程,而构建器智能体通过在多个轨迹上的检索增强生成来合成鲁棒的RPA函数;(2)一种在代码验证期间的混合修复策略,结合RPA执行与基于ReAct的回退,以进行迭代改进。跨多个GUI环境的实验表明,AutoRPA生成的RPA函数成功地解决了类似的任务,同时将token使用量减少了82%到96%,从而显著提高了运行时效率和可重用性。
🔬 方法详解
问题定义:论文旨在解决重复性GUI任务中,基于LLM的智能体(如ReAct)效率低下的问题。现有方法需要对每个步骤都进行LLM推理,导致计算成本高昂,响应速度慢。传统的RPA虽然效率高,但需要大量人工开发和维护,难以适应GUI的变化。
核心思路:AutoRPA的核心思路是将LLM智能体在少量交互轨迹中学习到的决策逻辑,自动提炼成可复用的RPA函数。这样,对于相似的重复性任务,可以直接执行RPA函数,避免重复调用LLM,从而提高效率。同时,AutoRPA还引入了混合修复策略,利用ReAct作为RPA执行失败时的回退机制,增强了系统的鲁棒性。
技术框架:AutoRPA框架包含两个主要阶段:翻译器-构建器流水线和混合修复策略。翻译器-构建器流水线首先使用翻译器智能体将ReAct动作转换为软编码过程,然后使用构建器智能体通过检索增强生成来合成RPA函数。混合修复策略在代码验证阶段,结合RPA执行和ReAct回退,迭代改进RPA函数。
关键创新:AutoRPA的关键创新在于自动将LLM智能体的决策逻辑提炼为RPA函数,并结合混合修复策略来提高RPA函数的鲁棒性。与现有方法相比,AutoRPA无需人工编写RPA脚本,并且能够显著减少token使用量,提高运行时效率。
关键设计:翻译器智能体和构建器智能体都基于LLM,通过prompt工程来指导其行为。构建器智能体使用检索增强生成,从多个交互轨迹中学习RPA函数的生成。混合修复策略使用RPA执行结果作为反馈信号,指导ReAct智能体进行修复。具体的参数设置和网络结构信息未知。
🖼️ 关键图片
📊 实验亮点
实验结果表明,AutoRPA生成的RPA函数在多个GUI环境中成功解决了类似的任务,同时将token使用量减少了82%到96%。这表明AutoRPA能够显著提高运行时效率和可重用性,降低了对LLM的依赖,使得GUI自动化更加高效和经济。
🎯 应用场景
AutoRPA可应用于各种需要重复性GUI操作的场景,例如数据录入、网页信息抓取、自动化测试等。它可以显著提高工作效率,降低人工成本,并减少错误率。未来,AutoRPA有望成为企业自动化流程的重要组成部分,推动RPA技术的普及和发展。
📄 摘要(原文)
Large Language Model (LLM) based agents have demonstrated proficiency in multi-step interactions with graphical user interfaces (GUIs). While most research focuses on improving single-task performance, practical scenarios often involve repetitive GUI tasks for which invoking LLM reasoning repeatedly, i.e., the ReAct paradigm, is inefficient. Prior to LLMs, traditional Robotic Process Automation (RPA) offers runtime efficiency but demands significant manual effort to develop and maintain. To bridge this gap, we propose AutoRPA, a framework that automatically distills the decision logic of ReAct-style agents into robust RPA functions. AutoRPA introduces two core innovations: (1) A translator-builder pipeline, where a translator agent converts hard-coded ReAct actions into soft-coded procedures, and a builder agent synthesizes robust RPA functions via retrieval-augmented generation over multiple trajectories; (2) A hybrid repair strategy during code verification, combining RPA execution with ReAct-based fallback for iterative refinement. Experiments across multiple GUI environments demonstrate that RPA functions generated by AutoRPA successfully solve similar tasks while reducing token usage by 82% to 96%, significantly improving runtime efficiency and reusability.