Android Coach: Improve Online Agentic Training Efficiency with Single State Multiple Actions

📄 arXiv: 2604.07277v1 📥 PDF

作者: Guo Gan, Yuxuan Ding, Cong Chen, Yuwei Ren, Yin Huang, Hong Zhou

分类: cs.LG, cs.AI

发布日期: 2026-04-08


💡 一句话要点

Android Coach:通过单状态多动作提升在线Agent训练效率

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 强化学习 Android Agent 在线学习 单状态多动作 样本效率

📋 核心要点

  1. 现有Android agent在线强化学习方法受限于模拟器高延迟和算法低效,训练成本高昂。
  2. Android Coach采用单状态多动作范式,通过学习critic来评估动作价值,提升样本利用率。
  3. 实验表明,Android Coach在AndroidLab和AndroidWorld上显著提升了成功率,并提高了训练效率。

📝 摘要(中文)

在线强化学习是提升Android agent能力的有效方法。然而,由于模拟器的高延迟和现有强化学习算法的样本低效性,通过在线交互引导agent学习的成本非常高。本文指出当前方法的一个根本限制:单状态单动作范式,它使用来自在线单向rollout的一对一状态-动作对来更新策略,而没有充分探索每个代价高昂的模拟器状态。因此,我们提出了Android Coach,一种新颖的框架,将训练范式转变为单状态多动作,允许agent为单个在线状态采样和利用多个动作。通过学习一个评估动作价值的critic,我们无需额外的模拟器开销即可实现这一点。为了确保critic作为一个可靠的coach,我们集成了一个过程奖励模型,并引入了一个基于平均critic输出的组间优势估计器。大量实验表明了Android Coach的有效性和效率:在AndroidLab和AndroidWorld上,它比UI-TARS-1.5-7B实现了7.5%和8.3%的成功率提升,并且在匹配的成功率下,比单状态单动作方法PPO和GRPO实现了1.4倍的训练效率提升。

🔬 方法详解

问题定义:现有Android agent在线强化学习方法主要采用单状态单动作范式,即每次与模拟器交互,agent仅执行一个动作并获得一个状态转移。由于Android模拟器延迟较高,这种方式导致样本效率低下,训练成本高昂。现有方法未能充分利用每次模拟器交互产生的状态信息,造成资源浪费。

核心思路:Android Coach的核心思路是将训练范式从单状态单动作转变为单状态多动作。对于每个在线状态,agent不再只选择一个动作执行,而是采样多个动作,并利用这些动作及其对应的价值估计来更新策略。这样可以在不增加模拟器交互次数的前提下,显著提高样本利用率,从而提升训练效率。

技术框架:Android Coach框架主要包含以下几个模块:1) Agent:负责与Android模拟器交互,并根据当前策略选择动作。2) Critic:用于评估每个动作的价值,为agent提供指导。3) Process Reward Model:用于建模agent执行动作的过程奖励,辅助critic学习。4) Group-wise Advantage Estimator:基于平均critic输出,估计每个动作的优势,用于策略更新。整体流程为:agent与模拟器交互获得状态,然后采样多个动作,critic评估这些动作的价值,过程奖励模型提供辅助信息,优势估计器计算优势,最后利用优势信息更新agent的策略。

关键创新:Android Coach最重要的技术创新点在于单状态多动作范式的引入。与传统的单状态单动作方法相比,Android Coach能够更充分地利用每次模拟器交互产生的信息,从而显著提高样本效率。此外,过程奖励模型和组间优势估计器的设计也进一步提升了critic的准确性和稳定性。

关键设计:在critic的设计上,论文采用了深度神经网络,并使用过程奖励模型提供的奖励信号进行辅助训练。过程奖励模型旨在提供更密集的奖励信号,帮助critic更快地学习到准确的动作价值估计。组间优势估计器则通过对多个动作的critic输出进行平均,从而降低了critic估计的方差,提高了策略更新的稳定性。具体的网络结构和损失函数等细节在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Android Coach在AndroidLab和AndroidWorld两个benchmark上均取得了显著的性能提升。与UI-TARS-1.5-7B相比,Android Coach的成功率分别提升了7.5%和8.3%。此外,在达到相同成功率的情况下,Android Coach的训练效率比单状态单动作方法PPO和GRPO提高了1.4倍,验证了其在样本效率方面的优势。

🎯 应用场景

Android Coach可应用于各种Android agent的训练场景,例如自动化测试、游戏AI、移动应用助手等。通过提高在线强化学习的效率,可以降低训练成本,加速agent的开发和部署。该研究对于提升移动设备上人工智能的应用水平具有重要意义,并有望推动更多智能移动应用的发展。

📄 摘要(原文)

Online reinforcement learning (RL) serves as an effective method for enhancing the capabilities of Android agents. However, guiding agents to learn through online interaction is prohibitively expensive due to the high latency of emulators and the sample inefficiency of existing RL algorithms. We identify a fundamental limitation in current approaches: the Single State Single Action paradigm, which updates the policy with one-to-one state-action pairs from online one-way rollouts without fully exploring each costly emulator state. In this paper, we propose Android Coach, a novel framework that shifts the training paradigm to Single State Multiple Actions, allowing the agent to sample and utilize multiple actions for a single online state. We enable this without additional emulator overhead by learning a critic that estimates action values. To ensure the critic serves as a reliable coach, we integrate a process reward model and introduce a group-wise advantage estimator based on the averaged critic outputs. Extensive experiments demonstrate the effectiveness and efficiency of Android Coach: it achieves 7.5% and 8.3% success rate improvements on AndroidLab and AndroidWorld over UI-TARS-1.5-7B, and attains 1.4x higher training efficiency than Single State Single Action methods PPO and GRPO at matched success rates.