Advancing Mobile GUI Agents: A Verifier-Driven Approach to Practical Deployment

作者: Gaole Dai, Shiqi Jiang, Ting Cao, Yuanchun Li, Yuqing Yang, Rui Tan, Mo Li, Lili Qiu

分类: cs.AI

发布日期: 2025-03-20 (更新: 2025-10-30)

备注: add baselines, add source code link, update emails

🔗 代码/项目: GITHUB

💡 一句话要点

V-Droid：一种基于验证器的移动GUI代理，提升任务自动化性能与效率

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 移动GUI代理 任务自动化 大型语言模型 验证器 人机协作

📋 核心要点

现有移动代理依赖LLM直接生成动作，易出错且效率低，难以实际部署。
V-Droid采用LLM作为验证器，评估候选动作，提升决策质量和效率。
实验表明，V-Droid在多个基准测试中显著超越现有代理，且延迟大幅降低。

📝 摘要（中文）

本文提出了一种移动GUI任务自动化代理V-Droid。与以往使用大型语言模型（LLM）作为生成器直接生成动作的移动代理不同，V-Droid采用LLM作为验证器，在做出最终决策之前评估候选动作。为了实现这种新颖的范式，我们引入了一个全面的框架来构建基于验证器的移动代理：离散化动作空间构建与仅预填充工作流程相结合以加速验证过程，成对进展偏好训练以显著增强验证器的决策能力，以及可扩展的人机联合标注方案以高效地大规模收集必要的数据。V-Droid在多个公共移动任务自动化基准测试中获得了显著的任务成功率：在AndroidWorld上为59.5%，在AndroidLab上为38.3%，在MobileAgentBench上为49%，分别超过现有代理5.2%、2.1%和9%。此外，V-Droid实现了显著的低延迟，每步仅需4.3秒，比现有移动代理快6.1倍。源代码可在https://github.com/V-Droid-Agent/V-Droid获取。

🔬 方法详解

问题定义：现有移动GUI自动化代理主要依赖大型语言模型（LLM）直接生成每一步的动作。这种方法存在两个主要痛点：一是LLM直接生成动作容易出错，导致任务成功率不高；二是生成动作的延迟较高，影响用户体验，难以实际部署。

核心思路：V-Droid的核心思路是将LLM的角色从动作生成器转变为动作验证器。不再直接让LLM生成动作，而是先构建一个候选动作集合，然后利用LLM来评估这些候选动作的优劣，最终选择最佳动作执行。这种方式可以有效降低LLM生成错误动作的概率，并提高整体效率。

技术框架：V-Droid的整体框架包含以下几个主要模块：1) 离散化动作空间构建：将连续的动作空间离散化为有限的候选动作集合。2) 仅预填充工作流程：通过预先填充必要信息，加速验证过程。3) 成对进展偏好训练：训练LLM验证器，使其能够区分不同动作带来的进展程度，从而选择更优的动作。4) 人机联合标注：设计可扩展的标注方案，高效收集训练数据。

关键创新：V-Droid最重要的技术创新在于其基于验证器的架构。与传统的基于生成器的移动代理相比，V-Droid通过验证机制显著提高了动作的准确性和效率。此外，成对进展偏好训练方法有效地提升了验证器的决策能力。

关键设计：在离散化动作空间构建方面，论文设计了针对不同GUI元素的动作类型，例如点击、滑动、输入等。在成对进展偏好训练中，使用了对比损失函数，鼓励验证器对能够带来更大进展的动作给予更高的评分。人机联合标注方案则侧重于标注不同动作对任务进展的贡献程度，从而为验证器的训练提供高质量的数据。

🖼️ 关键图片

📊 实验亮点

V-Droid在AndroidWorld、AndroidLab和MobileAgentBench三个公共移动任务自动化基准测试中分别取得了59.5%、38.3%和49%的任务成功率，分别超过现有代理5.2%、2.1%和9%。此外，V-Droid的平均延迟仅为4.3秒/步，比现有移动代理快6.1倍，表明其在实际应用中具有更高的效率。

🎯 应用场景

V-Droid具有广泛的应用前景，可用于自动化移动应用测试、用户界面导航、智能助手等领域。它可以显著提高移动设备使用的效率和便利性，例如自动完成重复性任务、辅助老年人使用智能手机等。未来，V-Droid有望成为移动设备上不可或缺的智能代理。

📄 摘要（原文）

We propose V-Droid, a mobile GUI task automation agent. Unlike previous mobile agents that utilize Large Language Models (LLMs) as generators to directly generate actions at each step, V-Droid employs LLMs as verifiers to evaluate candidate actions before making final decisions. To realize this novel paradigm, we introduce a comprehensive framework for constructing verifier-driven mobile agents: the discretized action space construction coupled with the prefilling-only workflow to accelerate the verification process, the pair-wise progress preference training to significantly enhance the verifier's decision-making capabilities, and the scalable human-agent joint annotation scheme to efficiently collect the necessary data at scale. V-Droid obtains a substantial task success rate across several public mobile task automation benchmarks: 59.5% on AndroidWorld, 38.3% on AndroidLab, and 49% on MobileAgentBench, surpassing existing agents by 5.2%, 2.1%, and 9%, respectively. Furthermore, V-Droid achieves a remarkably low latency of 4.3s per step, which is 6.1x faster compared with existing mobile agents. The source code is available at https://github.com/V-Droid-Agent/V-Droid.

Advancing Mobile GUI Agents: A Verifier-Driven Approach to Practical Deployment

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理