UI-R1: Enhancing Efficient Action Prediction of GUI Agents by Reinforcement Learning

作者: Zhengxi Lu, Yuxiang Chai, Yaxuan Guo, Xi Yin, Liang Liu, Hao Wang, Han Xiao, Shuai Ren, Guanjing Xiong, Hongsheng Li

分类: cs.AI

发布日期: 2025-03-27 (更新: 2025-05-24)

备注: Updated UI-R1-E-3B

🔗 代码/项目: GITHUB

💡 一句话要点

UI-R1：通过强化学习提升GUI智能体高效动作预测能力

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: GUI智能体 强化学习 多模态学习 动作预测 规则引擎

📋 核心要点

现有方法在GUI智能体任务中，多模态大型语言模型的推理能力有待提升，尤其缺乏有效的强化学习框架。
UI-R1提出了一种基于规则的动作奖励机制，并结合策略梯度算法，以强化学习方式优化MLLM在GUI动作预测中的推理能力。
实验表明，UI-R1-3B在多个GUI任务数据集上显著优于基线模型，甚至可与更大规模的监督微调模型相媲美。

📝 摘要（中文）

DeepSeek-R1通过基于规则奖励的强化学习展示了LLM的推理能力。然而，其在多模态领域，特别是图形用户界面(GUI)智能体任务中的应用仍未被充分探索。为了解决这个问题，我们提出了UI-R1，这是第一个探索基于规则的强化学习如何增强多模态大型语言模型(MLLM)在GUI动作预测任务中推理能力的框架。具体来说，UI-R1引入了一种新颖的基于规则的动作奖励，从而可以通过基于策略的算法（如Group Relative Policy Optimization (GRPO)）进行模型优化。为了高效训练，我们整理了一个包含136个具有挑战性任务的小而高质量的数据集，涵盖了移动设备上的五种常见动作类型。实验结果表明，我们提出的UI-R1-3B在同域(ID)和异域(OOD)任务上都比基础模型(即Qwen2.5-VL-3B)有了显著的改进，在ScreenSpot上的平均准确率提高了22.1%，在ScreenSpot-Pro上提高了6.0%，在ANDROIDCONTROL上提高了12.7%。此外，UI-R1-3B与通过监督微调(SFT)在76K样本上训练的更大模型(例如，OS-Atlas-7B)相比，具有竞争力的性能。我们还开发了一个优化版本UI-R1-E-3B，它显著提高了基础效率和准确性。这些结果强调了基于规则的强化学习在推进GUI理解和控制方面的潜力，为该领域的未来研究铺平了道路。

🔬 方法详解

问题定义：论文旨在解决多模态大型语言模型（MLLM）在图形用户界面（GUI）智能体任务中，动作预测能力不足的问题。现有方法通常依赖于监督学习，需要大量标注数据，且泛化能力有限。强化学习在语言模型中展现了潜力，但在GUI任务中的应用尚不成熟。

核心思路：论文的核心思路是利用基于规则的强化学习来提升MLLM在GUI动作预测中的推理能力。通过设计合适的规则来定义奖励函数，引导模型学习更有效的动作策略，从而在少量数据下也能获得良好的性能。这种方法旨在弥补监督学习的不足，提高模型的泛化能力和效率。

技术框架：UI-R1框架主要包含以下几个部分：1) 多模态输入：接收GUI的视觉信息（屏幕截图）和文本信息（任务描述）。2) MLLM：使用多模态大型语言模型作为智能体的核心，负责理解输入并生成动作。3) 规则引擎：根据预定义的规则评估智能体执行的动作，并给出相应的奖励。4) 强化学习算法：使用基于策略的强化学习算法（如GRPO）优化MLLM的策略，使其能够选择更优的动作。整体流程是，MLLM根据输入生成动作，规则引擎评估动作并给出奖励，强化学习算法根据奖励更新MLLM的参数。

关键创新：UI-R1的关键创新在于引入了基于规则的动作奖励。传统的强化学习需要人工设计复杂的奖励函数，而UI-R1通过预定义的规则自动生成奖励，简化了奖励函数的设计过程，并提高了奖励的准确性和一致性。与现有方法相比，UI-R1不需要大量的标注数据，且能够更好地利用GUI的结构化信息。

关键设计：UI-R1的关键设计包括：1) 规则引擎的设计：规则需要能够准确评估动作的有效性，并给出合理的奖励。2) 强化学习算法的选择：GRPO算法能够有效地处理高维动作空间，并提高训练的稳定性。3) 数据集的构建：论文专门构建了一个小而高质量的数据集，包含136个具有挑战性的任务，涵盖了移动设备上的五种常见动作类型。这些任务旨在测试模型的推理能力和泛化能力。

🖼️ 关键图片

📊 实验亮点

UI-R1-3B在ScreenSpot上的平均准确率比Qwen2.5-VL-3B提高了22.1%，在ScreenSpot-Pro上提高了6.0%，在ANDROIDCONTROL上提高了12.7%。UI-R1-3B的性能甚至可以与在76K样本上进行监督微调的OS-Atlas-7B相媲美，表明了基于规则的强化学习在GUI任务中的有效性。优化版本UI-R1-E-3B进一步提高了基础效率和准确性。

🎯 应用场景

UI-R1的研究成果可应用于自动化测试、智能助手、无障碍设计等领域。例如，可以利用UI-R1自动执行移动应用的测试用例，提高测试效率。也可以将其集成到智能助手中，帮助用户更方便地操作移动设备。此外，UI-R1还可以用于开发无障碍应用，帮助残疾人更好地使用移动设备。

📄 摘要（原文）

The recent DeepSeek-R1 has showcased the emergence of reasoning capabilities in LLMs through reinforcement learning (RL) with rule-based rewards. Despite its success in language models, its application in multi-modal domains, particularly in graphic user interface (GUI) agent tasks, remains under-explored. To address this issue, we propose UI-R1, the first framework to explore how rule-based RL can enhance the reasoning capabilities of multimodal large language models (MLLMs) for GUI action prediction tasks. Specifically, UI-R1 introduces a novel rule-based action reward, enabling model optimization via policy-based algorithms such as Group Relative Policy Optimization (GRPO). For efficient training, we curate a small yet high-quality dataset of 136 challenging tasks, encompassing five common action types on mobile devices. Experimental results demonstrate that our proposed UI-R1-3B achieves significant improvements over the base model (i.e. Qwen2.5-VL-3B) on both in-domain (ID) and out-of-domain (OOD) tasks, with average accuracy gains of 22.1% on ScreenSpot, 6.0% on ScreenSpot-Pro, and 12.7% on ANDROIDCONTROL. Furthermore, UI-R1-3B delivers competitive performance compared to larger models (e.g., OS-Atlas-7B) trained via supervised fine-tuning (SFT) on 76K samples. We additionally develop an optimized version, UI-R1-E-3B, which significantly improves both grounding efficiency and accuracy. These results underscore the potential of rule-based reinforcement learning to advance GUI understanding and control, paving the way for future research in this domain. Code website: https://github.com/lll6gg/UI-R1.

UI-R1: Enhancing Efficient Action Prediction of GUI Agents by Reinforcement Learning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理