GoClick: Lightweight Element Grounding Model for Autonomous GUI Interaction

📄 arXiv: 2604.23941v1 📥 PDF

作者: Hongxin Li, Yuntao Chen, Zhaoxiang Zhang

分类: cs.CV

发布日期: 2026-04-27

备注: Technical Report


💡 一句话要点

提出GoClick轻量级GUI元素定位模型,用于资源受限设备上的自主GUI交互。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: GUI元素定位 视觉-语言模型 轻量级模型 编码器-解码器 数据提炼

📋 核心要点

  1. 现有视觉定位模型庞大,难以在移动设备等资源受限设备上部署,限制了GUI智能体的应用。
  2. GoClick采用编码器-解码器架构,并设计渐进式数据提炼流程,在保证精度的同时显著降低模型大小。
  3. 实验表明,GoClick在多个GUI元素定位基准测试中表现出色,且能提升设备-云协作框架下GUI智能体的性能。

📝 摘要(中文)

图形用户界面(GUI)元素定位(基于自然语言指令在截图中精确定位元素)是智能体与GUI交互的基础。在移动电话等资源受限设备上直接部署此功能对于需要低延迟的GUI智能体至关重要。然而,由于当前的视觉定位方法通常采用大型视觉-语言模型(VLM)(超过25亿参数),这使得它们因内存和计算限制而无法在设备上执行。为了解决这个问题,本文介绍了一种轻量级GUI元素定位VLM——GoClick,它只有2.3亿参数,但实现了出色的视觉定位精度,甚至与更大的模型相媲美。简单地缩小现有的仅解码器VLM是设计轻量级模型的一种直接方法,但我们的实验表明,这种方法会产生次优的结果。相反,我们选择了一种编码器-解码器架构,它在GUI定位任务的小参数规模下优于仅解码器的替代方案。此外,小型VLM的有限容量促使我们开发了一种渐进式数据提炼流程,该流程利用任务类型过滤和数据比例调整,从1080万原始数据集中提取高质量的380万样本核心集。使用此核心集训练GoClick带来了显著的定位精度提升。我们的实验表明,GoClick在多个GUI元素定位基准测试中表现出色,同时保持了较小的尺寸和较高的推理速度。当集成到设备-云协作框架中时,GoClick还增强了GUI智能体的性能,其中GoClick帮助基于云的任务规划器执行精确的元素定位并实现更高的成功率。我们希望我们的方法能够为GUI智能体社区提供有意义的探索。

🔬 方法详解

问题定义:论文旨在解决GUI元素定位模型体积过大,难以在资源受限设备上部署的问题。现有的大型视觉-语言模型(VLM)虽然精度高,但参数量巨大,无法满足移动设备等平台的内存和计算需求,阻碍了GUI智能体在实际场景中的应用。

核心思路:论文的核心思路是设计一个轻量级的VLM,在保证定位精度的前提下,显著降低模型参数量。为此,作者探索了不同的模型架构,并提出了渐进式数据提炼流程,以提高训练数据的质量和效率。

技术框架:GoClick采用编码器-解码器架构。编码器负责提取图像特征,解码器负责根据自然语言指令定位GUI元素。训练过程包括两个阶段:首先,使用大规模原始数据集进行预训练;然后,使用提炼后的高质量核心数据集进行微调。整个框架旨在平衡模型大小、精度和推理速度。

关键创新:论文的关键创新在于:1) 选择了编码器-解码器架构,实验证明其在小参数规模下优于仅解码器架构;2) 提出了渐进式数据提炼流程,通过任务类型过滤和数据比例调整,有效提升了训练数据的质量,从而提高了模型的定位精度。

关键设计:渐进式数据提炼流程是关键设计之一。该流程首先根据任务类型过滤掉不相关的数据,然后调整不同类型数据的比例,以平衡数据集。此外,损失函数的设计也至关重要,需要考虑定位精度和模型泛化能力。具体的网络结构细节和参数设置在论文中有详细描述,但摘要中未明确给出。

📊 实验亮点

GoClick仅有2.3亿参数,在多个GUI元素定位基准测试中取得了与大型VLM相媲美的精度。实验表明,GoClick在保持小尺寸和高推理速度的同时,显著提升了GUI智能体的性能。具体性能数据和对比基线在论文中有详细描述,但摘要中未明确给出具体的提升幅度。

🎯 应用场景

GoClick可应用于移动设备上的自主GUI交互,例如自动化测试、辅助功能和智能助手。它能够帮助用户通过自然语言指令控制应用程序,提高用户体验和工作效率。此外,GoClick还可以应用于设备-云协作框架,实现更强大的GUI智能体功能。未来,该技术有望在智能家居、车载系统等领域得到广泛应用。

📄 摘要(原文)

Graphical User Interface (GUI) element grounding (precisely locating elements on screenshots based on natural language instructions) is fundamental for agents interacting with GUIs. Deploying this capability directly on resource-constrained devices like mobile phones is increasingly critical for GUI agents requiring low latency. However, this goal faces a significant challenge, as current visual grounding methods typically employ large vision-language model (VLM) (more than 2.5B parameters), making them impractical for on-device execution due to memory and computational constraints. To address this, this paper introduces GoClick, a lightweight GUI element grounding VLM with only 230M parameters that achieves excellent visual grounding accuracy, even on par with significantly larger models. Simply downsizing existing decoder-only VLMs is a straightforward way to design a lightweight model, but our experiments reveal that this approach yields suboptimal results. Instead, we select an encoder-decoder architecture, which outperforms decoder-only alternatives at small parameter scales for GUI grounding tasks. Additionally, the limited capacity of small VLMs encourages us to develop a Progressive Data Refinement pipeline that utilizes task type filtering and data ratio adjustment to extract a high-quality 3.8M-sample core set from a 10.8M raw dataset. Training GoClick using this core set brings notable grounding accuracy gains. Our experiments show that GoClick excels on multiple GUI element grounding benchmarks while maintaining a small size and high inference speed. GoClick also enhances GUI agent performance when integrated into a device-cloud collaboration framework, where GoClick helps cloud-based task planners perform precise element localization and achieve higher success rates. We hope our method serves as a meaningful exploration within the GUI agent community.