AndroidLab: Training and Systematic Benchmarking of Android Autonomous Agents
作者: Yifan Xu, Xiao Liu, Xueqiao Sun, Siyi Cheng, Hao Yu, Hanyu Lai, Shudan Zhang, Dan Zhang, Jie Tang, Yuxiao Dong
分类: cs.AI
发布日期: 2024-10-31 (更新: 2024-11-04)
🔗 代码/项目: GITHUB
💡 一句话要点
AndroidLab:用于训练和系统评估Android自主代理的框架
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: Android代理 自主代理 大型语言模型 多模态模型 基准测试 自动化任务 可复现性
📋 核心要点
- 现有Android代理训练和评估缺乏系统性研究,限制了模型发展。
- AndroidLab提供统一框架,支持LLM和LMM,并包含可复现的基准。
- 通过AndroidLab训练,LLM和LMM在任务成功率上获得了显著提升。
📝 摘要(中文)
自主代理在与现实世界交互中变得越来越重要。特别是Android代理,最近成为一种频繁被提及的交互方法。然而,现有的Android代理训练和评估研究缺乏对开源和闭源模型的系统性研究。本文提出了AndroidLab,一个系统的Android代理框架,包含具有不同模态的操作环境、动作空间和一个可复现的基准。它支持在同一动作空间中使用大型语言模型(LLMs)和多模态模型(LMMs)。AndroidLab基准包括预定义的Android虚拟设备和构建在这些设备上的九个应用程序中的138个任务。通过使用AndroidLab环境,我们开发了一个Android指令数据集,并训练了六个开源LLM和LMM,将LLM的平均成功率从4.59%提高到21.50%,LMM的平均成功率从1.93%提高到13.28%。AndroidLab已开源,可在https://github.com/THUDM/Android-Lab公开获取。
🔬 方法详解
问题定义:现有Android代理的研究缺乏一个统一的、可复现的评估基准。开源和闭源模型缺乏系统性的对比和分析。这阻碍了Android自主代理的进一步发展,难以评估不同模型在相同任务上的性能,也难以进行有效的模型训练和改进。
核心思路:AndroidLab的核心思路是构建一个统一的Android代理框架,提供标准化的操作环境、动作空间和评估基准。通过提供预定义的Android虚拟设备和任务,使得不同的模型可以在相同的条件下进行训练和评估,从而实现公平的比较和有效的模型改进。
技术框架:AndroidLab框架主要包含以下几个模块:1) 操作环境:提供Android虚拟设备,模拟真实的用户交互场景。2) 动作空间:定义了一组标准化的动作,用于控制Android设备。3) 基准测试:包含138个预定义的任务,涵盖九个不同的应用程序。4) 数据集:提供Android指令数据集,用于训练模型。该框架支持LLM和LMM,并提供统一的接口。
关键创新:AndroidLab的关键创新在于提供了一个系统性的、可复现的Android代理评估框架。它统一了操作环境和动作空间,使得不同模型可以在相同的条件下进行比较。此外,AndroidLab还提供了一个Android指令数据集,用于训练模型,并开源了整个框架,促进了Android自主代理的研究和发展。
关键设计:AndroidLab的关键设计包括:1) 预定义的Android虚拟设备,保证了实验的可复现性。2) 标准化的动作空间,使得不同的模型可以使用相同的动作进行交互。3) 包含138个任务的基准测试,覆盖了不同的应用场景。4) Android指令数据集,用于训练模型。此外,AndroidLab还提供了详细的文档和示例代码,方便用户使用。
🖼️ 关键图片
📊 实验亮点
通过在AndroidLab环境中训练六个开源LLM和LMM,LLM的平均成功率从4.59%提高到21.50%,LMM的平均成功率从1.93%提高到13.28%。这些结果表明,AndroidLab提供了一个有效的训练和评估平台,可以显著提升Android自主代理的性能。
🎯 应用场景
AndroidLab可应用于开发各种Android自动化任务,例如自动测试、智能助手、自动化办公等。通过训练自主代理,可以实现自动化的应用程序交互,提高工作效率,并为用户提供更智能化的服务。该框架的开源特性也促进了学术界和工业界在该领域的合作和创新。
📄 摘要(原文)
Autonomous agents have become increasingly important for interacting with the real world. Android agents, in particular, have been recently a frequently-mentioned interaction method. However, existing studies for training and evaluating Android agents lack systematic research on both open-source and closed-source models. In this work, we propose AndroidLab as a systematic Android agent framework. It includes an operation environment with different modalities, action space, and a reproducible benchmark. It supports both large language models (LLMs) and multimodal models (LMMs) in the same action space. AndroidLab benchmark includes predefined Android virtual devices and 138 tasks across nine apps built on these devices. By using the AndroidLab environment, we develop an Android Instruction dataset and train six open-source LLMs and LMMs, lifting the average success rates from 4.59% to 21.50% for LLMs and from 1.93% to 13.28% for LMMs. AndroidLab is open-sourced and publicly available at https://github.com/THUDM/Android-Lab.