Advancing Mobile GUI Agents: A Verifier-Driven Approach to Practical Deployment
作者: Gaole Dai, Shiqi Jiang, Ting Cao, Yuanchun Li, Yuqing Yang, Rui Tan, Mo Li, Lili Qiu
分类: cs.AI
发布日期: 2025-03-20 (更新: 2025-10-30)
备注: add baselines, add source code link, update emails
🔗 代码/项目: GITHUB
💡 一句话要点
V-Droid:一种基于验证器的移动GUI代理,提升任务自动化性能与效率
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 移动GUI代理 任务自动化 大型语言模型 验证器 人机协作
📋 核心要点
- 现有移动代理依赖LLM直接生成动作,易出错且效率低,难以实际部署。
- V-Droid采用LLM作为验证器,评估候选动作,提升决策质量和效率。
- 实验表明,V-Droid在多个基准测试中显著超越现有代理,且延迟大幅降低。
📝 摘要(中文)
本文提出了一种移动GUI任务自动化代理V-Droid。与以往使用大型语言模型(LLM)作为生成器直接生成动作的移动代理不同,V-Droid采用LLM作为验证器,在做出最终决策之前评估候选动作。为了实现这种新颖的范式,我们引入了一个全面的框架来构建基于验证器的移动代理:离散化动作空间构建与仅预填充工作流程相结合以加速验证过程,成对进展偏好训练以显著增强验证器的决策能力,以及可扩展的人机联合标注方案以高效地大规模收集必要的数据。V-Droid在多个公共移动任务自动化基准测试中获得了显著的任务成功率:在AndroidWorld上为59.5%,在AndroidLab上为38.3%,在MobileAgentBench上为49%,分别超过现有代理5.2%、2.1%和9%。此外,V-Droid实现了显著的低延迟,每步仅需4.3秒,比现有移动代理快6.1倍。源代码可在https://github.com/V-Droid-Agent/V-Droid获取。
🔬 方法详解
问题定义:现有移动GUI自动化代理主要依赖大型语言模型(LLM)直接生成每一步的动作。这种方法存在两个主要痛点:一是LLM直接生成动作容易出错,导致任务成功率不高;二是生成动作的延迟较高,影响用户体验,难以实际部署。
核心思路:V-Droid的核心思路是将LLM的角色从动作生成器转变为动作验证器。不再直接让LLM生成动作,而是先构建一个候选动作集合,然后利用LLM来评估这些候选动作的优劣,最终选择最佳动作执行。这种方式可以有效降低LLM生成错误动作的概率,并提高整体效率。
技术框架:V-Droid的整体框架包含以下几个主要模块:1) 离散化动作空间构建:将连续的动作空间离散化为有限的候选动作集合。2) 仅预填充工作流程:通过预先填充必要信息,加速验证过程。3) 成对进展偏好训练:训练LLM验证器,使其能够区分不同动作带来的进展程度,从而选择更优的动作。4) 人机联合标注:设计可扩展的标注方案,高效收集训练数据。
关键创新:V-Droid最重要的技术创新在于其基于验证器的架构。与传统的基于生成器的移动代理相比,V-Droid通过验证机制显著提高了动作的准确性和效率。此外,成对进展偏好训练方法有效地提升了验证器的决策能力。
关键设计:在离散化动作空间构建方面,论文设计了针对不同GUI元素的动作类型,例如点击、滑动、输入等。在成对进展偏好训练中,使用了对比损失函数,鼓励验证器对能够带来更大进展的动作给予更高的评分。人机联合标注方案则侧重于标注不同动作对任务进展的贡献程度,从而为验证器的训练提供高质量的数据。
🖼️ 关键图片
📊 实验亮点
V-Droid在AndroidWorld、AndroidLab和MobileAgentBench三个公共移动任务自动化基准测试中分别取得了59.5%、38.3%和49%的任务成功率,分别超过现有代理5.2%、2.1%和9%。此外,V-Droid的平均延迟仅为4.3秒/步,比现有移动代理快6.1倍,表明其在实际应用中具有更高的效率。
🎯 应用场景
V-Droid具有广泛的应用前景,可用于自动化移动应用测试、用户界面导航、智能助手等领域。它可以显著提高移动设备使用的效率和便利性,例如自动完成重复性任务、辅助老年人使用智能手机等。未来,V-Droid有望成为移动设备上不可或缺的智能代理。
📄 摘要(原文)
We propose V-Droid, a mobile GUI task automation agent. Unlike previous mobile agents that utilize Large Language Models (LLMs) as generators to directly generate actions at each step, V-Droid employs LLMs as verifiers to evaluate candidate actions before making final decisions. To realize this novel paradigm, we introduce a comprehensive framework for constructing verifier-driven mobile agents: the discretized action space construction coupled with the prefilling-only workflow to accelerate the verification process, the pair-wise progress preference training to significantly enhance the verifier's decision-making capabilities, and the scalable human-agent joint annotation scheme to efficiently collect the necessary data at scale. V-Droid obtains a substantial task success rate across several public mobile task automation benchmarks: 59.5% on AndroidWorld, 38.3% on AndroidLab, and 49% on MobileAgentBench, surpassing existing agents by 5.2%, 2.1%, and 9%, respectively. Furthermore, V-Droid achieves a remarkably low latency of 4.3s per step, which is 6.1x faster compared with existing mobile agents. The source code is available at https://github.com/V-Droid-Agent/V-Droid.