Towards GUI Agents: Vision-Language Diffusion Models for GUI Grounding

📄 arXiv: 2603.26211v1 📥 PDF

作者: Shrinidhi Kumbhar, Haofu Liao, Srikar Appalaraju, Kunwar Yashraj Singh

分类: cs.CV, cs.AI

发布日期: 2026-03-27

备注: Accepted to CVPR 2026


💡 一句话要点

提出基于扩散模型的GUI Agent,用于提升GUI环境下的目标定位与交互能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: GUI Agent 扩散模型 视觉-语言模型 目标定位 人机交互

📋 核心要点

  1. 现有GUI Agent主要依赖自回归视觉-语言模型,存在推理速度慢、难以并行化等问题。
  2. 提出基于离散扩散视觉-语言模型(DVLMs)的GUI Agent,利用其并行生成和迭代优化的特性。
  3. 通过混合掩码策略和数据增强,在多个GUI数据集上验证了DVLMs的有效性,并显著提升了定位精度。

📝 摘要(中文)

自回归(AR)视觉-语言模型(VLMs)长期以来在多模态理解、推理和图形用户界面(GUI)定位方面占据主导地位。最近,离散扩散视觉-语言模型(DVLMs)在多模态推理中表现出强大的性能,提供了双向注意力、并行token生成和迭代细化。然而,它们在GUI定位方面的潜力尚未被探索。本文评估了离散DVLMs是否可以作为AR模型在GUI定位中的可行替代方案。我们调整了LLaDA-V用于单轮动作和边界框预测,将任务构建为来自多模态输入的文本生成。为了更好地捕捉边界框几何的层次结构,我们提出了一种混合掩码策略,该策略结合了线性掩码和确定性掩码,在步成功率(SSR)方面,比使用线性掩码训练的GUI-adapted LLaDA-V提高了高达6.1个百分点。在涵盖Web、桌面和移动界面的四个数据集上的评估表明,具有混合掩码的调整后的扩散模型始终优于线性掩码变体,并且在有限的预训练下与自回归模型相比具有竞争力。系统的消融研究表明,增加扩散步骤、生成长度和块长度可以提高准确性,但也会增加延迟,并且准确性在超过一定数量的扩散步骤后趋于稳定。通过使用不同的GUI域扩展训练数据,可以进一步将延迟减少约1.3秒,并将基准测试的定位准确率平均提高20个百分点。这些结果表明,离散DVLMs是GUI定位的一种有前途的建模框架,并且代表了基于扩散的GUI Agent的重要一步。

🔬 方法详解

问题定义:论文旨在解决GUI Agent中,如何更高效、更准确地进行GUI元素的定位和交互问题。现有方法主要依赖于自回归模型,这些模型在生成序列时存在固有的串行性,导致推理速度较慢,且难以充分利用上下文信息。此外,自回归模型在处理复杂的GUI结构时,可能难以捕捉到元素之间的层次关系。

核心思路:论文的核心思路是利用离散扩散视觉-语言模型(DVLMs)的并行生成和迭代优化能力,替代传统的自回归模型。DVLMs通过逐步去噪的方式生成目标序列,允许模型在每一步都考虑全局信息,从而更好地捕捉GUI元素的上下文关系和层次结构。同时,DVLMs的并行生成特性可以显著提高推理速度。

技术框架:整体框架包括以下几个主要步骤:1) 输入多模态数据(GUI图像和文本指令);2) 使用视觉编码器和文本编码器提取特征;3) 将提取的特征输入到离散扩散模型中;4) 通过迭代去噪过程生成目标序列(包括动作和边界框坐标);5) 使用混合掩码策略优化训练过程,提高定位精度。

关键创新:论文的关键创新在于:1) 将离散扩散模型应用于GUI Agent任务,探索了DVLMs在GUI定位方面的潜力;2) 提出了混合掩码策略,结合了线性掩码和确定性掩码,更好地捕捉边界框几何的层次结构,显著提高了定位精度。

关键设计:混合掩码策略是关键设计之一。线性掩码随机地掩盖token,而确定性掩码则根据预定义的规则掩盖token,例如,优先掩盖边界框坐标中的某些维度。通过结合这两种掩码方式,模型可以更好地学习GUI元素的结构信息。此外,论文还探索了不同的扩散步骤、生成长度和块长度对性能的影响,并进行了消融实验。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,提出的基于DVLMs的GUI Agent在四个GUI数据集上均取得了显著的性能提升。与使用线性掩码的LLaDA-V相比,使用混合掩码策略的DVLMs在步成功率(SSR)方面提高了高达6.1个百分点。此外,通过扩展训练数据,定位准确率平均提高了20个百分点,延迟减少了约1.3秒。该模型在有限的预训练下,性能与自回归模型相比具有竞争力。

🎯 应用场景

该研究成果可应用于自动化测试、RPA(机器人流程自动化)、辅助功能设计等领域。例如,可以利用该技术自动执行Web或桌面应用程序中的任务,提高工作效率;也可以帮助视力障碍者更方便地使用GUI界面。未来,该技术有望进一步发展为更智能、更自主的GUI Agent,实现更复杂的人机交互。

📄 摘要(原文)

Autoregressive (AR) vision-language models (VLMs) have long dominated multimodal understanding, reasoning, and graphical user interface (GUI) grounding. Recently, discrete diffusion vision-language models (DVLMs) have shown strong performance in multimodal reasoning, offering bidirectional attention, parallel token generation, and iterative refinement. However, their potential for GUI grounding remains unexplored. In this work, we evaluate whether discrete DVLMs can serve as a viable alternative to AR models for GUI grounding. We adapt LLaDA-V for single-turn action and bounding-box prediction, framing the task as text generation from multimodal input. To better capture the hierarchical structure of bounding-box geometry, we propose a hybrid masking schedule that combines linear and deterministic masking, improving grounding accuracy by up to 6.1 points in Step Success Rate (SSR) over the GUI-adapted LLaDA-V trained with linear masking. Evaluations on four datasets spanning web, desktop, and mobile interfaces show that the adapted diffusion model with hybrid masking consistently outperforms the linear-masked variant and performs competitively with autoregressive counterparts despite limited pretraining. Systematic ablations reveal that increasing diffusion steps, generation length, and block length improves accuracy but also increases latency, with accuracy plateauing beyond a certain number of diffusion steps. Expanding the training data with diverse GUI domains further reduces latency by about 1.3 seconds and improves grounding accuracy by an average of 20 points across benchmarks. These results demonstrate that discrete DVLMs are a promising modeling framework for GUI grounding and represent an important step toward diffusion-based GUI agents.