Breaking the Data Barrier -- Building GUI Agents Through Task Generalization

作者: Junlei Zhang, Zichen Ding, Chang Ma, Zijie Chen, Qiushi Sun, Zhenzhong Lan, Junxian He

分类: cs.AI, cs.CL, cs.CV

发布日期: 2025-04-14 (更新: 2025-04-15)

备注: 24 pages, 11 figures

🔗 代码/项目: GITHUB

💡 一句话要点

通过任务泛化构建GUI智能体，突破数据壁垒

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: GUI智能体 任务泛化 视觉语言模型 跨模态学习 数据增强

📋 核心要点

GUI智能体面临高质量训练数据稀缺的挑战，限制了其在复杂任务中的性能。
提出利用数据丰富的推理任务进行中间训练，提升视觉语言模型在GUI规划场景的泛化能力。
实验表明，多模态和文本推理任务能有效提升GUI智能体性能，优于直接使用GUI感知数据。

📝 摘要（中文）

图形用户界面(GUI)智能体为自动化复杂的数字任务提供了跨平台解决方案，具有显著提高生产力工作流程的潜力。然而，它们的性能通常受到高质量轨迹数据稀缺的限制。为了解决这个限制，我们提出在专门的中间训练阶段，利用数据丰富、推理密集的任务来训练视觉语言模型(VLMs)，然后研究整合这些任务如何促进GUI规划场景的泛化。具体来说，我们探索了一系列具有现成指令调整数据的任务，包括GUI感知、多模态推理和文本推理。通过对11个中间训练任务的广泛实验，我们证明了：（1）任务泛化非常有效，在大多数设置中都产生了显著的改进。例如，多模态数学推理将AndroidWorld的性能提高了6.3%。值得注意的是，纯文本数学数据显著提高了GUI Web智能体的性能，在WebArena上实现了5.6%的改进，在AndroidWorld上实现了5.4%的改进，突出了从基于文本到视觉领域的显著跨模态泛化；（2）与之前的假设相反，GUI感知数据——之前被认为与GUI智能体任务紧密相关并被广泛用于训练——对最终性能的影响相对有限；（3）基于这些见解，我们确定了最有效的中间训练任务，并策划了优化的混合数据集，从而在WebArena上实现了8.0%的绝对性能提升，在AndroidWorld上实现了12.2%的绝对性能提升。我们的工作为GUI智能体的跨领域知识迁移提供了有价值的见解，并为解决这个新兴领域的数据稀缺挑战提供了一种实用的方法。

🔬 方法详解

问题定义：论文旨在解决GUI智能体训练中数据稀缺的问题。现有方法通常依赖于大量的GUI交互数据，但获取这些数据成本高昂且难以覆盖所有场景。这导致GUI智能体在面对新的、未见过的情况时，泛化能力较差。现有方法的痛点在于数据效率低，需要大量特定领域的数据才能获得较好的性能。

核心思路：论文的核心思路是利用任务泛化，通过在数据丰富的、与GUI任务相关的其他任务上进行中间训练，来提升GUI智能体的泛化能力。作者认为，即使是看似不直接相关的任务，例如文本推理或多模态数学推理，也能帮助模型学习到通用的推理能力，从而提升其在GUI环境中的表现。这样设计的目的是为了利用已有的、容易获取的数据，来弥补GUI数据的不足。

技术框架：整体框架包含三个阶段：预训练阶段（使用通用视觉语言模型），中间训练阶段（使用各种推理任务的数据进行训练），以及最终的GUI任务训练阶段。中间训练阶段是核心，作者探索了11种不同的任务，包括GUI感知、多模态推理和文本推理。这些任务的数据集都是现成的，易于获取。最终的GUI任务训练阶段使用少量GUI数据进行微调，以适应特定的GUI环境。

关键创新：最重要的技术创新点在于发现了非GUI任务（例如文本数学推理）也能显著提升GUI智能体的性能。这打破了以往认为只有GUI感知数据才对GUI智能体有帮助的认知。这种跨模态、跨领域的知识迁移能力是该论文的关键创新。

关键设计：论文的关键设计在于中间训练任务的选择和混合。作者通过大量的实验，评估了不同任务对GUI智能体性能的影响，并最终选择了最优的任务组合。此外，作者还探索了不同的数据混合比例，以进一步提升性能。具体的参数设置和网络结构沿用了常用的视觉语言模型，没有进行特别的修改。

🖼️ 关键图片

📊 实验亮点

实验结果表明，通过中间训练，GUI智能体的性能得到了显著提升。例如，在WebArena上，使用优化的混合数据集进行中间训练后，性能提升了8.0%；在AndroidWorld上，性能提升了12.2%。值得注意的是，纯文本数学数据也能显著提高GUI Web智能体的性能，在WebArena上实现了5.6%的改进，在AndroidWorld上实现了5.4%的改进。这些结果表明，任务泛化是一种有效的提升GUI智能体性能的方法。

🎯 应用场景

该研究成果可应用于自动化办公、智能家居控制、软件测试等领域。通过提升GUI智能体的泛化能力，可以减少对大量特定领域数据的依赖，降低开发成本，并使智能体能够更好地适应各种复杂的GUI环境，从而提高人机交互的效率和用户体验。未来，该技术有望应用于更广泛的领域，例如辅助残疾人使用计算机等。

📄 摘要（原文）

Graphical User Interface (GUI) agents offer cross-platform solutions for automating complex digital tasks, with significant potential to transform productivity workflows. However, their performance is often constrained by the scarcity of high-quality trajectory data. To address this limitation, we propose training Vision Language Models (VLMs) on data-rich, reasoning-intensive tasks during a dedicated mid-training stage, and then examine how incorporating these tasks facilitates generalization to GUI planning scenarios. Specifically, we explore a range of tasks with readily available instruction-tuning data, including GUI perception, multimodal reasoning, and textual reasoning. Through extensive experiments across 11 mid-training tasks, we demonstrate that: (1) Task generalization proves highly effective, yielding substantial improvements across most settings. For instance, multimodal mathematical reasoning enhances performance on AndroidWorld by an absolute 6.3%. Remarkably, text-only mathematical data significantly boosts GUI web agent performance, achieving a 5.6% improvement on WebArena and 5.4% improvement on AndroidWorld, underscoring notable cross-modal generalization from text-based to visual domains; (2) Contrary to prior assumptions, GUI perception data - previously considered closely aligned with GUI agent tasks and widely utilized for training - has a comparatively limited impact on final performance; (3) Building on these insights, we identify the most effective mid-training tasks and curate optimized mixture datasets, resulting in absolute performance gains of 8.0% on WebArena and 12.2% on AndroidWorld. Our work provides valuable insights into cross-domain knowledge transfer for GUI agents and offers a practical approach to addressing data scarcity challenges in this emerging field. The code, data and models will be available at https://github.com/hkust-nlp/GUIMid.

Breaking the Data Barrier -- Building GUI Agents Through Task Generalization

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理