Mobile-Agent-E: Self-Evolving Mobile Assistant for Complex Tasks

📄 arXiv: 2501.11733v2 📥 PDF

作者: Zhenhailong Wang, Haiyang Xu, Junyang Wang, Xi Zhang, Ming Yan, Ji Zhang, Fei Huang, Heng Ji

分类: cs.CL, cs.CV

发布日期: 2025-01-20 (更新: 2025-01-28)

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出Mobile-Agent-E,通过自进化机制提升移动设备上复杂任务的处理能力。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 移动代理 多模态模型 自进化学习 分层架构 复杂任务 长时程任务 人机交互

📋 核心要点

  1. 现有基于LMM的移动代理在处理复杂任务时,面临真实需求理解不足、长时程推理困难和缺乏经验学习机制等挑战。
  2. Mobile-Agent-E采用分层多代理架构,通过Manager进行高层规划,多个子代理执行感知、操作、反馈和记录等任务。
  3. Mobile-Agent-E引入自进化模块,利用Tips和Shortcuts进行长期记忆和经验复用,显著提升了任务完成的性能和效率。

📝 摘要(中文)

智能手机已成为现代生活不可或缺的一部分,但在移动设备上完成复杂任务仍然令人沮丧。基于大型多模态模型(LMM)的移动代理在移动环境中展现了感知和行动的能力。然而,现有方法存在显著局限:难以满足真实的人类需求,难以处理推理密集型和长时程任务,并且缺乏从先前经验中学习和改进的机制。为了克服这些挑战,我们引入了Mobile-Agent-E,这是一个分层多代理框架,能够通过过去的经验进行自我进化。该框架包含一个Manager,负责通过将复杂任务分解为子目标来制定总体计划,以及四个下属代理——Perceptor、Operator、Action Reflector和Notetaker,它们分别处理细粒度的视觉感知、即时动作执行、错误验证和信息聚合。Mobile-Agent-E还具有一种新颖的自进化模块,该模块维护包含Tips和Shortcuts的持久长期记忆。Tips是从先前任务中获得的关于如何有效地与环境交互的通用指导和经验。Shortcuts是为特定子程序量身定制的可重用、可执行的原子操作序列。包含Tips和Shortcuts有助于持续改进性能和效率。此外,我们还推出了Mobile-Eval-E,这是一个新的基准,其中包含需要长时程、多应用程序交互的复杂移动任务。实验结果表明,Mobile-Agent-E在三个基础模型骨干网上,比以前最先进的方法实现了22%的绝对改进。

🔬 方法详解

问题定义:现有基于大型多模态模型(LMM)的移动代理在处理智能手机上的复杂任务时,存在三个主要痛点:一是难以准确理解用户的真实需求;二是难以处理需要长时间推理和规划的任务;三是缺乏从历史经验中学习和改进的能力,导致效率低下。这些问题限制了移动代理在实际应用中的价值。

核心思路:Mobile-Agent-E的核心思路是构建一个分层、可自进化的多代理系统。通过分层结构,将复杂任务分解为高层规划和低层执行,降低了任务的难度。自进化机制则允许代理从过去的经验中学习,不断优化自身的行为策略,从而提高任务完成的效率和成功率。这种设计借鉴了人类解决问题的思维模式,即先制定计划,再逐步执行,并在实践中不断总结经验。

技术框架:Mobile-Agent-E的技术框架包含两个主要部分:分层多代理系统和自进化模块。分层多代理系统由一个Manager和四个子代理组成。Manager负责将复杂任务分解为子目标,并制定整体计划。四个子代理分别是:Perceptor(感知器),负责视觉感知;Operator(操作员),负责执行动作;Action Reflector(动作反射器),负责验证动作的正确性;Notetaker(记录员),负责信息聚合。自进化模块维护一个长期记忆,包含Tips(通用指导)和Shortcuts(可重用操作序列)。

关键创新:Mobile-Agent-E最重要的技术创新点在于其自进化机制。通过Tips和Shortcuts,代理能够从过去的经验中学习,并将这些经验用于指导未来的任务。Tips提供了通用的指导原则,例如“在搜索框中输入关键词之前,先点击搜索框”。Shortcuts则提供了可重用的操作序列,例如“打开设置应用并进入Wi-Fi设置”。这种自进化机制使得代理能够不断优化自身的行为策略,提高任务完成的效率和成功率。

关键设计:Mobile-Agent-E的关键设计包括:1) Manager使用大型语言模型(LLM)进行高层规划,将复杂任务分解为子目标。2) Perceptor使用视觉模型识别屏幕上的元素。3) Operator使用Android Debug Bridge (ADB) 执行动作。4) Action Reflector验证动作的正确性,并提供反馈。5) Notetaker记录任务执行过程中的关键信息。6) 自进化模块使用强化学习算法,根据任务完成情况更新Tips和Shortcuts。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Mobile-Agent-E在Mobile-Eval-E基准测试中,相较于之前的state-of-the-art方法,取得了22%的绝对性能提升。这一显著的提升证明了Mobile-Agent-E的有效性和优越性,尤其是在处理需要长时程、多应用交互的复杂任务时。

🎯 应用场景

Mobile-Agent-E具有广泛的应用前景,例如智能家居控制、自动化办公、移动设备辅助操作等。它可以帮助用户更高效地完成各种复杂任务,例如预订机票、管理日程、处理邮件等。未来,Mobile-Agent-E有望成为个人智能助理的核心技术,极大地提升移动设备的使用体验。

📄 摘要(原文)

Smartphones have become indispensable in modern life, yet navigating complex tasks on mobile devices often remains frustrating. Recent advancements in large multimodal model (LMM)-based mobile agents have demonstrated the ability to perceive and act in mobile environments. However, current approaches face significant limitations: they fall short in addressing real-world human needs, struggle with reasoning-intensive and long-horizon tasks, and lack mechanisms to learn and improve from prior experiences. To overcome these challenges, we introduce Mobile-Agent-E, a hierarchical multi-agent framework capable of self-evolution through past experience. By hierarchical, we mean an explicit separation of high-level planning and low-level action execution. The framework comprises a Manager, responsible for devising overall plans by breaking down complex tasks into subgoals, and four subordinate agents--Perceptor, Operator, Action Reflector, and Notetaker--which handle fine-grained visual perception, immediate action execution, error verification, and information aggregation, respectively. Mobile-Agent-E also features a novel self-evolution module which maintains a persistent long-term memory comprising Tips and Shortcuts. Tips are general guidance and lessons learned from prior tasks on how to effectively interact with the environment. Shortcuts are reusable, executable sequences of atomic operations tailored for specific subroutines. The inclusion of Tips and Shortcuts facilitates continuous refinement in performance and efficiency. Alongside this framework, we introduce Mobile-Eval-E, a new benchmark featuring complex mobile tasks requiring long-horizon, multi-app interactions. Empirical results show that Mobile-Agent-E achieves a 22% absolute improvement over previous state-of-the-art approaches across three foundation model backbones. Project page: https://x-plug.github.io/MobileAgent.