InfiGUI-R1: Advancing Multimodal GUI Agents from Reactive Actors to Deliberative Reasoners

作者: Yuhang Liu, Pengxiang Li, Congkai Xie, Xavier Hu, Xiaotian Han, Shengyu Zhang, Hongxia Yang, Fei Wu

分类: cs.AI, cs.CL

发布日期: 2025-04-19

备注: 10 pages, 3 figures, work in progress

🔗 代码/项目: GITHUB

💡 一句话要点

InfiGUI-R1：提出Actor2Reasoner框架，提升多模态GUI Agent的推理能力。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: GUI Agent 多模态学习 推理能力 强化学习 空间推理 知识蒸馏 错误恢复

📋 核心要点

现有GUI Agent依赖手动设计的推理模板，鲁棒性不足，难以适应复杂GUI环境，且缺乏足够的规划和错误恢复能力。
提出Actor2Reasoner框架，通过两阶段训练，使Agent从反应式执行者演变为审慎推理者，提升推理能力。
InfiGUI-R1在GUI基础和轨迹任务中表现出色，证明了Actor2Reasoner框架的有效性。

📝 摘要（中文）

多模态大型语言模型（MLLM）驱动的图形用户界面（GUI）Agent在计算设备上的自动化任务中展现出潜力。目前的研究开始探索GUI任务中的推理，并取得了一些成果。然而，许多现有方法依赖于手动设计的推理模板，这可能导致推理不够鲁棒，无法适应复杂的GUI环境。同时，一些现有的Agent仍然作为反应式执行者运行，主要依赖于隐式推理，这可能缺乏GUI任务所需的规划和错误恢复深度。我们认为，推进这些Agent需要从反应式行动转向基于审慎推理的行动。为了促进这种转变，我们引入了InfiGUI-R1，这是一个基于MLLM的GUI Agent，通过我们的Actor2Reasoner框架开发，这是一种以推理为中心的二阶段训练方法，旨在逐步将Agent从反应式执行者演变为审慎推理者。第一阶段，推理注入，侧重于建立一个基本的推理器。我们采用空间推理蒸馏，通过具有显式推理步骤的轨迹，将跨模态空间推理能力从教师模型转移到MLLM，使模型能够在生成动作之前将GUI视觉空间信息与逻辑推理相结合。第二阶段，审慎增强，使用强化学习将基本推理器细化为审慎推理器。此阶段引入两种方法：子目标引导，奖励模型生成准确的中间子目标；错误恢复场景构建，从已识别的易错步骤创建失败和恢复训练场景。实验结果表明，InfiGUI-R1在GUI基础和轨迹任务中取得了强大的性能。

🔬 方法详解

问题定义：现有GUI Agent在处理复杂GUI任务时，面临推理能力不足的问题。具体表现为：依赖人工设计的推理模板导致泛化性差；作为反应式执行者，缺乏对任务的规划和错误恢复能力。这些问题限制了Agent在实际应用中的表现。

核心思路：论文的核心思路是将GUI Agent从反应式执行者转变为审慎推理者。通过显式地训练Agent进行推理，使其能够更好地理解GUI环境，进行规划，并在遇到错误时进行恢复。这种转变旨在提升Agent的鲁棒性和适应性。

技术框架：Actor2Reasoner框架包含两个主要阶段：推理注入和审慎增强。在推理注入阶段，利用空间推理蒸馏，将教师模型的跨模态空间推理能力迁移到MLLM。在审慎增强阶段，使用强化学习，通过子目标引导和错误恢复场景构建，进一步提升Agent的推理能力。整体流程是从模仿学习到强化学习的迭代优化过程。

关键创新：该论文的关键创新在于Actor2Reasoner框架，它是一种以推理为中心的二阶段训练方法。该框架通过空间推理蒸馏和强化学习，有效地提升了GUI Agent的推理能力。此外，子目标引导和错误恢复场景构建是两个重要的技术创新，它们分别从不同角度提升了Agent的性能。

关键设计：在推理注入阶段，空间推理蒸馏的关键在于设计合适的教师模型和蒸馏策略，确保知识能够有效地迁移到MLLM。在审慎增强阶段，子目标引导需要定义清晰的子目标奖励函数，错误恢复场景构建需要准确识别易错步骤并构建相应的训练场景。强化学习算法的选择和参数调整也是关键的设计细节。

🖼️ 关键图片

📊 实验亮点

InfiGUI-R1在GUI基础和轨迹任务中取得了显著的性能提升。具体数据未在摘要中给出，但强调了其在GUI grounding和trajectory tasks中的强大性能。该Agent通过Actor2Reasoner框架，有效提升了推理能力，优于现有方法。

🎯 应用场景

该研究成果可应用于自动化测试、智能助手、无障碍辅助等领域。例如，可以利用该Agent自动执行软件测试用例，提高测试效率；可以作为智能助手，帮助用户完成复杂的GUI操作；可以为残障人士提供无障碍辅助，使他们能够更方便地使用计算机。

📄 摘要（原文）

Multimodal Large Language Models (MLLMs) have powered Graphical User Interface (GUI) Agents, showing promise in automating tasks on computing devices. Recent works have begun exploring reasoning in GUI tasks with encouraging results. However, many current approaches rely on manually designed reasoning templates, which may result in reasoning that is not sufficiently robust and adaptive for complex GUI environments. Meanwhile, some existing agents continue to operate as Reactive Actors, relying primarily on implicit reasoning that may lack sufficient depth for GUI tasks demanding planning and error recovery. We argue that advancing these agents requires a shift from reactive acting towards acting based on deliberate reasoning. To facilitate this transformation, we introduce InfiGUI-R1, an MLLM-based GUI agent developed through our Actor2Reasoner framework, a reasoning-centric, two-stage training approach designed to progressively evolve agents from Reactive Actors to Deliberative Reasoners. The first stage, Reasoning Injection, focuses on establishing a basic reasoner. We employ Spatial Reasoning Distillation to transfer cross-modal spatial reasoning capabilities from teacher models to MLLMs through trajectories with explicit reasoning steps, enabling models to integrate GUI visual-spatial information with logical reasoning before action generation. The second stage, Deliberation Enhancement, refines the basic reasoner into a deliberative one using Reinforcement Learning. This stage introduces two approaches: Sub-goal Guidance, which rewards models for generating accurate intermediate sub-goals, and Error Recovery Scenario Construction, which creates failure-and-recovery training scenarios from identified prone-to-error steps. Experimental results show InfiGUI-R1 achieves strong performance in GUI grounding and trajectory tasks. Resources at https://github.com/Reallm-Labs/InfiGUI-R1.

InfiGUI-R1: Advancing Multimodal GUI Agents from Reactive Actors to Deliberative Reasoners

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理