UI-R1: Enhancing Efficient Action Prediction of GUI Agents by Reinforcement Learning

📄 arXiv: 2503.21620v5 📥 PDF

作者: Zhengxi Lu, Yuxiang Chai, Yaxuan Guo, Xi Yin, Liang Liu, Hao Wang, Han Xiao, Shuai Ren, Guanjing Xiong, Hongsheng Li

分类: cs.AI

发布日期: 2025-03-27 (更新: 2025-05-24)

备注: Updated UI-R1-E-3B

🔗 代码/项目: GITHUB


💡 一句话要点

UI-R1:通过强化学习提升GUI智能体高效动作预测能力

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: GUI智能体 强化学习 多模态学习 动作预测 规则引擎

📋 核心要点

  1. 现有方法在GUI智能体任务中,多模态大型语言模型的推理能力有待提升,尤其缺乏有效的强化学习框架。
  2. UI-R1提出了一种基于规则的动作奖励机制,并结合策略梯度算法,以强化学习方式优化MLLM在GUI动作预测中的推理能力。
  3. 实验表明,UI-R1-3B在多个GUI任务数据集上显著优于基线模型,甚至可与更大规模的监督微调模型相媲美。

📝 摘要(中文)

DeepSeek-R1通过基于规则奖励的强化学习展示了LLM的推理能力。然而,其在多模态领域,特别是图形用户界面(GUI)智能体任务中的应用仍未被充分探索。为了解决这个问题,我们提出了UI-R1,这是第一个探索基于规则的强化学习如何增强多模态大型语言模型(MLLM)在GUI动作预测任务中推理能力的框架。具体来说,UI-R1引入了一种新颖的基于规则的动作奖励,从而可以通过基于策略的算法(如Group Relative Policy Optimization (GRPO))进行模型优化。为了高效训练,我们整理了一个包含136个具有挑战性任务的小而高质量的数据集,涵盖了移动设备上的五种常见动作类型。实验结果表明,我们提出的UI-R1-3B在同域(ID)和异域(OOD)任务上都比基础模型(即Qwen2.5-VL-3B)有了显著的改进,在ScreenSpot上的平均准确率提高了22.1%,在ScreenSpot-Pro上提高了6.0%,在ANDROIDCONTROL上提高了12.7%。此外,UI-R1-3B与通过监督微调(SFT)在76K样本上训练的更大模型(例如,OS-Atlas-7B)相比,具有竞争力的性能。我们还开发了一个优化版本UI-R1-E-3B,它显著提高了基础效率和准确性。这些结果强调了基于规则的强化学习在推进GUI理解和控制方面的潜力,为该领域的未来研究铺平了道路。

🔬 方法详解

问题定义:论文旨在解决多模态大型语言模型(MLLM)在图形用户界面(GUI)智能体任务中,动作预测能力不足的问题。现有方法通常依赖于监督学习,需要大量标注数据,且泛化能力有限。强化学习在语言模型中展现了潜力,但在GUI任务中的应用尚不成熟。

核心思路:论文的核心思路是利用基于规则的强化学习来提升MLLM在GUI动作预测中的推理能力。通过设计合适的规则来定义奖励函数,引导模型学习更有效的动作策略,从而在少量数据下也能获得良好的性能。这种方法旨在弥补监督学习的不足,提高模型的泛化能力和效率。

技术框架:UI-R1框架主要包含以下几个部分:1) 多模态输入:接收GUI的视觉信息(屏幕截图)和文本信息(任务描述)。2) MLLM:使用多模态大型语言模型作为智能体的核心,负责理解输入并生成动作。3) 规则引擎:根据预定义的规则评估智能体执行的动作,并给出相应的奖励。4) 强化学习算法:使用基于策略的强化学习算法(如GRPO)优化MLLM的策略,使其能够选择更优的动作。整体流程是,MLLM根据输入生成动作,规则引擎评估动作并给出奖励,强化学习算法根据奖励更新MLLM的参数。

关键创新:UI-R1的关键创新在于引入了基于规则的动作奖励。传统的强化学习需要人工设计复杂的奖励函数,而UI-R1通过预定义的规则自动生成奖励,简化了奖励函数的设计过程,并提高了奖励的准确性和一致性。与现有方法相比,UI-R1不需要大量的标注数据,且能够更好地利用GUI的结构化信息。

关键设计:UI-R1的关键设计包括:1) 规则引擎的设计:规则需要能够准确评估动作的有效性,并给出合理的奖励。2) 强化学习算法的选择:GRPO算法能够有效地处理高维动作空间,并提高训练的稳定性。3) 数据集的构建:论文专门构建了一个小而高质量的数据集,包含136个具有挑战性的任务,涵盖了移动设备上的五种常见动作类型。这些任务旨在测试模型的推理能力和泛化能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

UI-R1-3B在ScreenSpot上的平均准确率比Qwen2.5-VL-3B提高了22.1%,在ScreenSpot-Pro上提高了6.0%,在ANDROIDCONTROL上提高了12.7%。UI-R1-3B的性能甚至可以与在76K样本上进行监督微调的OS-Atlas-7B相媲美,表明了基于规则的强化学习在GUI任务中的有效性。优化版本UI-R1-E-3B进一步提高了基础效率和准确性。

🎯 应用场景

UI-R1的研究成果可应用于自动化测试、智能助手、无障碍设计等领域。例如,可以利用UI-R1自动执行移动应用的测试用例,提高测试效率。也可以将其集成到智能助手中,帮助用户更方便地操作移动设备。此外,UI-R1还可以用于开发无障碍应用,帮助残疾人更好地使用移动设备。

📄 摘要(原文)

The recent DeepSeek-R1 has showcased the emergence of reasoning capabilities in LLMs through reinforcement learning (RL) with rule-based rewards. Despite its success in language models, its application in multi-modal domains, particularly in graphic user interface (GUI) agent tasks, remains under-explored. To address this issue, we propose UI-R1, the first framework to explore how rule-based RL can enhance the reasoning capabilities of multimodal large language models (MLLMs) for GUI action prediction tasks. Specifically, UI-R1 introduces a novel rule-based action reward, enabling model optimization via policy-based algorithms such as Group Relative Policy Optimization (GRPO). For efficient training, we curate a small yet high-quality dataset of 136 challenging tasks, encompassing five common action types on mobile devices. Experimental results demonstrate that our proposed UI-R1-3B achieves significant improvements over the base model (i.e. Qwen2.5-VL-3B) on both in-domain (ID) and out-of-domain (OOD) tasks, with average accuracy gains of 22.1% on ScreenSpot, 6.0% on ScreenSpot-Pro, and 12.7% on ANDROIDCONTROL. Furthermore, UI-R1-3B delivers competitive performance compared to larger models (e.g., OS-Atlas-7B) trained via supervised fine-tuning (SFT) on 76K samples. We additionally develop an optimized version, UI-R1-E-3B, which significantly improves both grounding efficiency and accuracy. These results underscore the potential of rule-based reinforcement learning to advance GUI understanding and control, paving the way for future research in this domain. Code website: https://github.com/lll6gg/UI-R1.