MobileUse: A GUI Agent with Hierarchical Reflection for Autonomous Mobile Operation

📄 arXiv: 2507.16853v1 📥 PDF

作者: Ning Li, Xiangmou Qu, Jiamu Zhou, Jun Wang, Muning Wen, Kounianhua Du, Xingyu Lou, Qiuying Peng, Jun Wang, Weinan Zhang

分类: cs.RO, cs.MA

发布日期: 2025-07-21

备注: A technical report on a GUI agent based on multi-agent systems

🔗 代码/项目: GITHUB


💡 一句话要点

MobileUse:一种具有分层反思机制的GUI代理,用于自主移动设备操作

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 移动代理 多模态大语言模型 分层反思 自主操作 GUI代理

📋 核心要点

  1. 现有移动代理在长时程任务中鲁棒性不足,难以从错误中恢复,且在新环境中存在冷启动问题。
  2. MobileUse通过分层反思架构实现自我监控和错误恢复,并采用主动探索模块解决冷启动问题。
  3. 实验表明,MobileUse在AndroidWorld和AndroidLab基准测试中分别取得了62.9%和44.2%的成功率,达到SOTA。

📝 摘要(中文)

多模态大型语言模型(MLLM)的最新进展推动了移动代理的发展,这些代理能够理解视觉输入并遵循用户指令,从而为自动化移动设备上的复杂任务开辟了新的可能性。然而,由于长时程任务执行、错误恢复困难以及在不熟悉环境中的冷启动问题,将这些模型应用于实际移动场景仍然是一个重大挑战。为了应对这些挑战,我们提出了MobileUse,一种为稳健和自适应移动任务执行而设计的GUI代理。为了提高长时程任务和动态环境中的弹性,我们引入了一种分层反思架构,使代理能够跨多个时间尺度(从单个动作到整体任务完成)进行自我监控、检测和从错误中恢复,同时通过按需反思策略保持效率。为了解决冷启动问题,我们进一步引入了一个主动探索模块,通过自我规划的探索来丰富代理对环境的理解。在AndroidWorld和AndroidLab基准测试上的评估表明,MobileUse建立了新的最先进的性能,分别达到了62.9%和44.2%的成功率。为了方便实际应用,我们发布了一个开箱即用的工具包,用于在物理移动设备上自动执行任务,该工具包可在https://github.com/MadeAgents/mobile-use上获得。

🔬 方法详解

问题定义:论文旨在解决移动代理在实际移动设备操作中面临的长时程任务执行、错误恢复困难以及冷启动问题。现有方法难以适应动态环境,且在不熟悉的环境中表现不佳。

核心思路:论文的核心思路是构建一个具有分层反思机制的GUI代理,使其能够自我监控、检测和从错误中恢复,并通过主动探索来学习新环境。这种设计旨在提高代理的鲁棒性和适应性。

技术框架:MobileUse的整体架构包含三个主要模块:GUI代理、分层反思模块和主动探索模块。GUI代理负责与移动设备交互并执行任务;分层反思模块负责在不同时间尺度上监控代理的行为并进行错误恢复;主动探索模块负责在不熟悉的环境中进行探索,以获取更多信息。

关键创新:最重要的技术创新点是分层反思架构,它允许代理在不同层次上进行自我评估和纠正,从而提高了在复杂和动态环境中的鲁棒性。与传统的单一反思机制相比,分层反思能够更有效地识别和解决问题。

关键设计:分层反思模块包含多个层次的反思机制,每个层次负责不同时间尺度的监控和恢复。主动探索模块采用强化学习算法,鼓励代理探索未知区域并学习新的操作。论文还提供了一个开箱即用的工具包,方便在物理移动设备上进行部署和测试。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MobileUse在AndroidWorld和AndroidLab基准测试中取得了显著的性能提升,分别达到了62.9%和44.2%的成功率,超越了现有技术水平。这些结果表明,所提出的分层反思架构和主动探索模块能够有效提高移动代理的鲁棒性和适应性。

🎯 应用场景

该研究成果可应用于自动化移动设备任务,例如自动测试、智能助手、远程设备管理等。通过提高移动代理的鲁棒性和适应性,可以实现更高效、更可靠的移动设备自动化操作,从而节省人力成本并提高工作效率。未来,该技术有望应用于更广泛的领域,例如智能家居、自动驾驶等。

📄 摘要(原文)

Recent advances in Multimodal Large Language Models (MLLMs) have enabled the development of mobile agents that can understand visual inputs and follow user instructions, unlocking new possibilities for automating complex tasks on mobile devices. However, applying these models to real-world mobile scenarios remains a significant challenge due to the long-horizon task execution, difficulty in error recovery, and the cold-start problem in unfamiliar environments. To address these challenges, we propose MobileUse, a GUI agent designed for robust and adaptive mobile task execution. To improve resilience in long-horizon tasks and dynamic environments, we introduce a hierarchical reflection architecture that enables the agent to self-monitor, detect, and recover from errors across multiple temporal scales-ranging from individual actions to overall task completion-while maintaining efficiency through a reflection-on-demand strategy. To tackle cold-start issues, we further introduce a proactive exploration module, which enriches the agent's understanding of the environment through self-planned exploration. Evaluations on AndroidWorld and AndroidLab benchmarks demonstrate that MobileUse establishes new state-of-the-art performance, achieving success rates of 62.9% and 44.2%, respectively. To facilitate real-world applications, we release an out-of-the-box toolkit for automated task execution on physical mobile devices, which is available at https://github.com/MadeAgents/mobile-use.