AndroidGen: Building an Android Language Agent under Data Scarcity

作者: Hanyu Lai, Junjie Gao, Xiao Liu, Yifan Xu, Shudan Zhang, Yuxiao Dong, Jie Tang

分类: cs.CL

发布日期: 2025-04-27

🔗 代码/项目: GITHUB

💡 一句话要点

AndroidGen：一种数据稀缺下构建Android语言代理的框架

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: Android代理 大型语言模型 数据增强 数据过滤 移动设备自动化 任务完成率 开源模型

📋 核心要点

现有LLM在移动设备上作为代理应用受限于高质量数据匮乏，人工标注成本高昂且LLM完成率不足。
AndroidGen框架旨在通过数据增强和过滤策略，提升LLM在数据稀缺场景下作为Android代理的能力。
实验表明，AndroidGen在AndroidWorld、AitW等数据集和应用上表现出改进，并为未来研究指明方向。

📝 摘要（中文）

大型语言模型（LLMs）为各种自然语言处理任务开辟了可能性，激发了人们对未来的乐观情绪。尽管LLM具有潜力，但尚未被广泛用作真实移动设备上的代理。主要挑战是对高质量数据源的需求。时间限制和劳动强度通常会阻碍人工标注。另一方面，现有的LLM表现出不足的完成率，并且需要强大的数据过滤策略。鉴于这些挑战，我们开发了一个名为AndroidGen的框架，以增强基于LLM的代理在数据稀缺情况下的能力。此外，我们利用AndroidGen收集给定人类任务的轨迹，并在这些轨迹上训练开源LLM，以开发无需手动标记轨迹的开源移动代理。我们使用AndroidWorld、AitW和各种流行的应用程序对AndroidGen进行了广泛的评估，证明了它的改进并揭示了未来改进的潜在领域。代码、模型和数据可在https://github.com/THUDM/AndroidGen获取。

🔬 方法详解

问题定义：现有的大型语言模型（LLM）在移动设备上作为代理的应用面临数据稀缺的挑战。人工标注轨迹数据成本高昂，且现有LLM在实际应用中完成任务的成功率较低，需要有效的数据过滤策略。因此，如何利用有限的数据训练出高性能的Android代理是一个关键问题。

核心思路：AndroidGen的核心思路是在数据稀缺的情况下，通过数据增强和过滤策略来提升LLM作为Android代理的能力。该框架旨在自动生成和筛选高质量的训练数据，从而降低对人工标注数据的依赖，并提高LLM在实际移动设备上的任务完成率。

技术框架：AndroidGen框架包含数据生成、数据过滤和模型训练三个主要阶段。首先，利用LLM生成Android操作轨迹数据。然后，通过一系列过滤规则（例如，基于任务完成度、轨迹长度等）筛选出高质量的数据。最后，使用筛选后的数据训练开源LLM，使其能够执行各种Android任务。

关键创新：AndroidGen的关键创新在于其自动化的数据生成和过滤流程。与传统的手动标注方法相比，AndroidGen能够以更低的成本生成大量的训练数据。此外，该框架的数据过滤策略能够有效去除噪声数据，提高训练数据的质量，从而提升LLM的性能。

关键设计：AndroidGen的具体技术细节包括：使用特定的prompt工程技术来引导LLM生成有效的Android操作轨迹；设计了一系列数据过滤规则，例如基于任务完成度、轨迹长度、操作频率等；使用开源LLM（例如，LLaMA）作为基础模型，并采用微调（fine-tuning）的方式进行训练。具体的参数设置和损失函数选择可能需要根据实际情况进行调整。

🖼️ 关键图片

📊 实验亮点

AndroidGen在AndroidWorld、AitW等数据集和各种流行的Android应用程序上进行了广泛的评估。实验结果表明，AndroidGen能够显著提高LLM作为Android代理的任务完成率。具体的性能提升幅度取决于数据集和任务类型，但总体而言，AndroidGen证明了其在数据稀缺情况下构建高性能Android代理的有效性。

🎯 应用场景

AndroidGen具有广泛的应用前景，可用于开发智能手机自动化助手、移动应用测试工具、以及辅助残疾人士使用移动设备的无障碍应用。该研究有助于降低开发智能移动代理的成本，并推动LLM在移动设备上的普及应用，未来可能促进更智能、更便捷的移动用户体验。

📄 摘要（原文）

Large language models have opened up a world of possibilities for various NLP tasks, sparking optimism for the future. Despite their potential, LLMs have yet to be widely used as agents on real mobile devices. The main challenge is the need for high-quality data sources. Time constraints and labor intensity often hinder human annotation. On the other hand, existing LLMs exhibit inadequate completion rates and need a robust data filtration strategy. Given these challenges, we develop a framework called AndroidGen to enhance the capabilities of LLM-based agents under data scarcity. In addition, we leverage AndroidGen to collect trajectories given human tasks and train open-source LLMs on these trajectories to develop an open-source mobile agent without manually labeled trajectories. We extensively evaluate AndroidGen with AndroidWorld, AitW, and various popular applications, demonstrating its improvements and revealing potential areas for future improvement. Code, model, and data are available at https://github.com/THUDM/AndroidGen.

AndroidGen: Building an Android Language Agent under Data Scarcity

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理