Breaking the Data Barrier -- Building GUI Agents Through Task Generalization

📄 arXiv: 2504.10127v2 📥 PDF

作者: Junlei Zhang, Zichen Ding, Chang Ma, Zijie Chen, Qiushi Sun, Zhenzhong Lan, Junxian He

分类: cs.AI, cs.CL, cs.CV

发布日期: 2025-04-14 (更新: 2025-04-15)

备注: 24 pages, 11 figures

🔗 代码/项目: GITHUB


💡 一句话要点

通过任务泛化构建GUI智能体,突破数据壁垒

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: GUI智能体 任务泛化 视觉语言模型 跨模态学习 数据增强

📋 核心要点

  1. GUI智能体面临高质量训练数据稀缺的挑战,限制了其在复杂任务中的性能。
  2. 提出利用数据丰富的推理任务进行中间训练,提升视觉语言模型在GUI规划场景的泛化能力。
  3. 实验表明,多模态和文本推理任务能有效提升GUI智能体性能,优于直接使用GUI感知数据。

📝 摘要(中文)

图形用户界面(GUI)智能体为自动化复杂的数字任务提供了跨平台解决方案,具有显著提高生产力工作流程的潜力。然而,它们的性能通常受到高质量轨迹数据稀缺的限制。为了解决这个限制,我们提出在专门的中间训练阶段,利用数据丰富、推理密集的任务来训练视觉语言模型(VLMs),然后研究整合这些任务如何促进GUI规划场景的泛化。具体来说,我们探索了一系列具有现成指令调整数据的任务,包括GUI感知、多模态推理和文本推理。通过对11个中间训练任务的广泛实验,我们证明了:(1)任务泛化非常有效,在大多数设置中都产生了显著的改进。例如,多模态数学推理将AndroidWorld的性能提高了6.3%。值得注意的是,纯文本数学数据显著提高了GUI Web智能体的性能,在WebArena上实现了5.6%的改进,在AndroidWorld上实现了5.4%的改进,突出了从基于文本到视觉领域的显著跨模态泛化;(2)与之前的假设相反,GUI感知数据——之前被认为与GUI智能体任务紧密相关并被广泛用于训练——对最终性能的影响相对有限;(3)基于这些见解,我们确定了最有效的中间训练任务,并策划了优化的混合数据集,从而在WebArena上实现了8.0%的绝对性能提升,在AndroidWorld上实现了12.2%的绝对性能提升。我们的工作为GUI智能体的跨领域知识迁移提供了有价值的见解,并为解决这个新兴领域的数据稀缺挑战提供了一种实用的方法。

🔬 方法详解

问题定义:论文旨在解决GUI智能体训练中数据稀缺的问题。现有方法通常依赖于大量的GUI交互数据,但获取这些数据成本高昂且难以覆盖所有场景。这导致GUI智能体在面对新的、未见过的情况时,泛化能力较差。现有方法的痛点在于数据效率低,需要大量特定领域的数据才能获得较好的性能。

核心思路:论文的核心思路是利用任务泛化,通过在数据丰富的、与GUI任务相关的其他任务上进行中间训练,来提升GUI智能体的泛化能力。作者认为,即使是看似不直接相关的任务,例如文本推理或多模态数学推理,也能帮助模型学习到通用的推理能力,从而提升其在GUI环境中的表现。这样设计的目的是为了利用已有的、容易获取的数据,来弥补GUI数据的不足。

技术框架:整体框架包含三个阶段:预训练阶段(使用通用视觉语言模型),中间训练阶段(使用各种推理任务的数据进行训练),以及最终的GUI任务训练阶段。中间训练阶段是核心,作者探索了11种不同的任务,包括GUI感知、多模态推理和文本推理。这些任务的数据集都是现成的,易于获取。最终的GUI任务训练阶段使用少量GUI数据进行微调,以适应特定的GUI环境。

关键创新:最重要的技术创新点在于发现了非GUI任务(例如文本数学推理)也能显著提升GUI智能体的性能。这打破了以往认为只有GUI感知数据才对GUI智能体有帮助的认知。这种跨模态、跨领域的知识迁移能力是该论文的关键创新。

关键设计:论文的关键设计在于中间训练任务的选择和混合。作者通过大量的实验,评估了不同任务对GUI智能体性能的影响,并最终选择了最优的任务组合。此外,作者还探索了不同的数据混合比例,以进一步提升性能。具体的参数设置和网络结构沿用了常用的视觉语言模型,没有进行特别的修改。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,通过中间训练,GUI智能体的性能得到了显著提升。例如,在WebArena上,使用优化的混合数据集进行中间训练后,性能提升了8.0%;在AndroidWorld上,性能提升了12.2%。值得注意的是,纯文本数学数据也能显著提高GUI Web智能体的性能,在WebArena上实现了5.6%的改进,在AndroidWorld上实现了5.4%的改进。这些结果表明,任务泛化是一种有效的提升GUI智能体性能的方法。

🎯 应用场景

该研究成果可应用于自动化办公、智能家居控制、软件测试等领域。通过提升GUI智能体的泛化能力,可以减少对大量特定领域数据的依赖,降低开发成本,并使智能体能够更好地适应各种复杂的GUI环境,从而提高人机交互的效率和用户体验。未来,该技术有望应用于更广泛的领域,例如辅助残疾人使用计算机等。

📄 摘要(原文)

Graphical User Interface (GUI) agents offer cross-platform solutions for automating complex digital tasks, with significant potential to transform productivity workflows. However, their performance is often constrained by the scarcity of high-quality trajectory data. To address this limitation, we propose training Vision Language Models (VLMs) on data-rich, reasoning-intensive tasks during a dedicated mid-training stage, and then examine how incorporating these tasks facilitates generalization to GUI planning scenarios. Specifically, we explore a range of tasks with readily available instruction-tuning data, including GUI perception, multimodal reasoning, and textual reasoning. Through extensive experiments across 11 mid-training tasks, we demonstrate that: (1) Task generalization proves highly effective, yielding substantial improvements across most settings. For instance, multimodal mathematical reasoning enhances performance on AndroidWorld by an absolute 6.3%. Remarkably, text-only mathematical data significantly boosts GUI web agent performance, achieving a 5.6% improvement on WebArena and 5.4% improvement on AndroidWorld, underscoring notable cross-modal generalization from text-based to visual domains; (2) Contrary to prior assumptions, GUI perception data - previously considered closely aligned with GUI agent tasks and widely utilized for training - has a comparatively limited impact on final performance; (3) Building on these insights, we identify the most effective mid-training tasks and curate optimized mixture datasets, resulting in absolute performance gains of 8.0% on WebArena and 12.2% on AndroidWorld. Our work provides valuable insights into cross-domain knowledge transfer for GUI agents and offers a practical approach to addressing data scarcity challenges in this emerging field. The code, data and models will be available at https://github.com/hkust-nlp/GUIMid.