DigiRL: Training In-The-Wild Device-Control Agents with Autonomous Reinforcement Learning

📄 arXiv: 2406.11896v1 📥 PDF

作者: Hao Bai, Yifei Zhou, Mert Cemri, Jiayi Pan, Alane Suhr, Sergey Levine, Aviral Kumar

分类: cs.LG

发布日期: 2024-06-14

备注: 11 pages of main text, 28 pages in total


💡 一句话要点

DigiRL:通过自主强化学习训练野外设备控制智能体

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 强化学习 视觉语言模型 设备控制 人机交互 自主学习 离线强化学习 在线强化学习

📋 核心要点

  1. 现有视觉语言模型在设备控制等决策任务中表现不佳,原因是缺乏足够的决策数据,且难以应对真实GUI的随机性和非平稳性。
  2. DigiRL通过两阶段强化学习微调预训练VLM,首先进行离线RL初始化,然后进行离线到在线RL,以提升智能体在真实环境中的控制能力。
  3. 实验表明,DigiRL在Android-in-the-Wild数据集上取得了显著提升,成功率从17.7%提高到67.2%,超越了现有最佳方法。

📝 摘要(中文)

视觉语言模型(VLM)的训练语料通常缺乏足够的以决策为中心的数据。这使得现成的VLM在诸如通过图形用户界面(GUI)进行野外设备控制等决策任务中表现欠佳。虽然使用静态演示进行训练已经显示出一定的希望,但我们表明,由于这些方法未能处理静态观测数据中未捕获的真实世界的随机性和非平稳性,因此它们在控制真实GUI方面存在不足。本文介绍了一种新颖的自主强化学习方法,称为DigiRL,用于通过在两个阶段微调预训练的VLM来训练野外设备控制智能体:离线强化学习以初始化模型,然后是离线到在线强化学习。为此,我们构建了一个可扩展且可并行化的Android学习环境,配备了基于VLM的评估器,并开发了一种简单而有效的强化学习方法,用于在此领域中学习。我们的方法运行优势加权强化学习,其优势估计器经过增强以考虑随机性,以及用于导出最大学习信号的自动课程。我们使用Android-in-the-Wild (AitW)数据集证明了DigiRL的有效性,其中我们使用强化学习训练的13亿参数VLM实现了49.5%的绝对改进——从17.7%的成功率提高到67.2%——超过了使用静态人工演示数据进行监督微调。这些结果不仅大大超过了先前最好的智能体,包括使用GPT-4V的AppAgent(8.3%的成功率)和使用AitW数据训练的170亿参数CogAgent(38.5%),而且超过了先前最好的基于过滤行为克隆的自主强化学习方法(57.8%),从而为野外设备控制的数字智能体建立了新的最先进水平。

🔬 方法详解

问题定义:论文旨在解决视觉语言模型在真实世界设备控制任务中的不足。现有方法,如监督微调,难以泛化到真实GUI环境中的随机性和非平稳性,导致性能下降。现有方法无法有效利用决策数据,导致在复杂任务中表现不佳。

核心思路:论文的核心思路是利用强化学习来微调预训练的视觉语言模型,使其能够更好地适应真实世界的设备控制任务。通过离线RL学习先验知识,再通过离线到在线RL进行精细调整,从而克服静态演示数据的局限性,提高智能体的泛化能力和鲁棒性。

技术框架:DigiRL框架包含以下主要模块:1) 基于VLM的Android学习环境,用于模拟真实设备控制场景;2) 离线RL阶段,使用静态数据集初始化VLM;3) 离线到在线RL阶段,通过与环境交互不断优化VLM;4) 基于VLM的评估器,用于评估智能体的性能;5) 优势加权强化学习算法,结合优势估计器和自动课程学习,提高学习效率。

关键创新:论文的关键创新在于提出了一种自主强化学习方法,能够有效地利用真实世界的交互数据来训练设备控制智能体。该方法结合了离线RL和离线到在线RL,克服了静态演示数据的局限性,并引入了优势估计器和自动课程学习,提高了学习效率和泛化能力。

关键设计:DigiRL的关键设计包括:1) 使用优势加权强化学习,以提高学习效率;2) 设计优势估计器,以考虑环境的随机性;3) 采用自动课程学习,以逐步提高任务难度;4) 构建可扩展且可并行化的Android学习环境,以支持大规模训练。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DigiRL在Android-in-the-Wild数据集上取得了显著的性能提升,成功率从17.7%提高到67.2%,超过了使用GPT-4V的AppAgent(8.3%)和17B CogAgent(38.5%)。此外,DigiRL还超越了先前最佳的基于过滤行为克隆的自主强化学习方法(57.8%),为野外设备控制的数字智能体建立了新的state-of-the-art。

🎯 应用场景

DigiRL技术可应用于各种人机交互场景,例如智能家居控制、自动化测试、辅助技术等。该研究的实际价值在于提高设备控制的自动化程度和智能化水平,降低人工成本,并为用户提供更便捷、高效的服务。未来,该技术有望应用于更广泛的领域,例如工业自动化、医疗保健等。

📄 摘要(原文)

Training corpuses for vision language models (VLMs) typically lack sufficient amounts of decision-centric data. This renders off-the-shelf VLMs sub-optimal for decision-making tasks such as in-the-wild device control through graphical user interfaces (GUIs). While training with static demonstrations has shown some promise, we show that such methods fall short for controlling real GUIs due to their failure to deal with real-world stochasticity and non-stationarity not captured in static observational data. This paper introduces a novel autonomous RL approach, called DigiRL, for training in-the-wild device control agents through fine-tuning a pre-trained VLM in two stages: offline RL to initialize the model, followed by offline-to-online RL. To do this, we build a scalable and parallelizable Android learning environment equipped with a VLM-based evaluator and develop a simple yet effective RL approach for learning in this domain. Our approach runs advantage-weighted RL with advantage estimators enhanced to account for stochasticity along with an automatic curriculum for deriving maximal learning signal. We demonstrate the effectiveness of DigiRL using the Android-in-the-Wild (AitW) dataset, where our 1.3B VLM trained with RL achieves a 49.5% absolute improvement -- from 17.7 to 67.2% success rate -- over supervised fine-tuning with static human demonstration data. These results significantly surpass not only the prior best agents, including AppAgent with GPT-4V (8.3% success rate) and the 17B CogAgent trained with AitW data (38.5%), but also the prior best autonomous RL approach based on filtered behavior cloning (57.8%), thereby establishing a new state-of-the-art for digital agents for in-the-wild device control.