MobileAgentBench: An Efficient and User-Friendly Benchmark for Mobile LLM Agents

📄 arXiv: 2406.08184v1 📥 PDF

作者: Luyuan Wang, Yongyu Deng, Yiwei Zha, Guodong Mao, Qinmin Wang, Tianchen Min, Wei Chen, Shoufa Chen

分类: cs.AI, cs.HC

发布日期: 2024-06-12


💡 一句话要点

提出MobileAgentBench,用于高效评估移动LLM Agent性能

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 移动Agent 大型语言模型 基准测试 性能评估 自动化测试

📋 核心要点

  1. 现有移动Agent缺乏系统性的性能评估,主要挑战在于移动应用状态的无限性和动作序列定义的模糊性,导致难以进行有效基准测试。
  2. MobileAgentBench旨在通过定义明确的任务和评估标准,减轻手动测试负担,实现对移动Agent性能的高效、系统性评估。
  3. 该基准测试平台包含10个开源应用中的100个任务,并对现有Agent(如AppAgent和MobileAgent)进行了评估,为后续研究提供参考。

📝 摘要(中文)

基于大型语言模型(LLM)的移动Agent因其直接与手机图形用户界面(GUI)交互的能力以及自主管理日常任务的潜力而日益普及。尽管它们在学术界和工业界都具有广阔的前景,但由于应用程序状态的无限性和可行操作序列的模糊定义,很少有研究关注于对现有移动Agent的性能进行基准测试。为了应对这一挑战,我们提出了一个高效且用户友好的基准测试平台MobileAgentBench,旨在减轻大量手动测试的负担。我们初步定义了10个开源应用程序中的100个任务,并按多个难度级别进行分类。随后,我们评估了包括AppAgent和MobileAgent在内的几个现有移动Agent,以彻底和系统地比较它们的性能。所有材料都可以在我们的项目网页https://MobileAgentBench.github.io上访问,为学术和工业领域的发展做出贡献。

🔬 方法详解

问题定义:现有基于LLM的移动Agent缺乏有效的基准测试方法。由于移动应用状态空间巨大且动作序列定义模糊,手动测试成本高昂且难以系统性地评估Agent的性能。因此,需要一个高效、用户友好的基准测试平台,以促进移动Agent的研究和发展。

核心思路:MobileAgentBench的核心思路是构建一个包含明确定义任务和评估指标的基准测试环境,从而降低测试复杂度和成本,并实现对不同Agent性能的客观比较。通过预定义的任务和评估标准,可以有效地衡量Agent在特定场景下的表现,并为Agent的改进提供指导。

技术框架:MobileAgentBench的技术框架主要包括以下几个部分:1) 任务定义:选择10个开源移动应用,并定义100个不同难度的任务。2) Agent评估:使用预定义的任务评估现有的移动Agent,如AppAgent和MobileAgent。3) 性能分析:对Agent的性能进行系统性分析,并提供详细的评估报告。该框架旨在提供一个全面、客观的评估平台,促进移动Agent的研发。

关键创新:MobileAgentBench的关键创新在于其高效性和用户友好性。它通过预定义任务和评估标准,显著降低了手动测试的负担,并提供了一个易于使用的评估平台。此外,该基准测试平台还涵盖了多个开源应用和不同难度的任务,从而能够更全面地评估Agent的性能。

关键设计:MobileAgentBench的关键设计包括:1) 任务选择:选择具有代表性的开源移动应用,并定义涵盖不同功能的任务。2) 难度分级:根据任务的复杂程度,将其分为不同的难度级别。3) 评估指标:定义明确的评估指标,如任务完成率、操作步骤数等,以客观衡量Agent的性能。4) 平台易用性:提供用户友好的界面和文档,方便研究人员使用和扩展该基准测试平台。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MobileAgentBench通过对AppAgent和MobileAgent等现有Agent进行评估,展示了其在评估移动Agent性能方面的有效性。该基准测试平台包含100个任务,涵盖10个开源应用,并提供了详细的性能分析报告。实验结果表明,不同Agent在不同任务上的表现存在显著差异,这为Agent的改进提供了重要的参考依据。具体性能数据和提升幅度未知。

🎯 应用场景

MobileAgentBench可应用于移动Agent的开发、测试和评估。研究人员和开发者可以使用该平台来比较不同Agent的性能,发现Agent的不足之处,并进行改进。此外,该平台还可以用于评估Agent在不同场景下的适应性,从而为Agent的部署提供指导。该研究有助于推动移动Agent技术的发展,并促进其在实际应用中的普及。

📄 摘要(原文)

Large language model (LLM)-based mobile agents are increasingly popular due to their capability to interact directly with mobile phone Graphic User Interfaces (GUIs) and their potential to autonomously manage daily tasks. Despite their promising prospects in both academic and industrial sectors, little research has focused on benchmarking the performance of existing mobile agents, due to the inexhaustible states of apps and the vague definition of feasible action sequences. To address this challenge, we propose an efficient and user-friendly benchmark, MobileAgentBench, designed to alleviate the burden of extensive manual testing. We initially define 100 tasks across 10 open-source apps, categorized by multiple levels of difficulty. Subsequently, we evaluate several existing mobile agents, including AppAgent and MobileAgent, to thoroughly and systematically compare their performance. All materials are accessible on our project webpage: https://MobileAgentBench.github.io, contributing to the advancement of both academic and industrial fields.