GoClick: Lightweight Element Grounding Model for Autonomous GUI Interaction
作者: Hongxin Li, Yuntao Chen, Zhaoxiang Zhang
分类: cs.CV
发布日期: 2026-04-27
备注: Technical Report
💡 一句话要点
提出GoClick轻量级GUI元素定位模型,用于资源受限设备上的自主GUI交互。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: GUI元素定位 视觉-语言模型 轻量级模型 编码器-解码器 数据提炼
📋 核心要点
- 现有视觉定位模型庞大,难以在移动设备等资源受限设备上部署,限制了GUI智能体的应用。
- GoClick采用编码器-解码器架构,并设计渐进式数据提炼流程,在保证精度的同时显著降低模型大小。
- 实验表明,GoClick在多个GUI元素定位基准测试中表现出色,且能提升设备-云协作框架下GUI智能体的性能。
📝 摘要(中文)
图形用户界面(GUI)元素定位(基于自然语言指令在截图中精确定位元素)是智能体与GUI交互的基础。在移动电话等资源受限设备上直接部署此功能对于需要低延迟的GUI智能体至关重要。然而,由于当前的视觉定位方法通常采用大型视觉-语言模型(VLM)(超过25亿参数),这使得它们因内存和计算限制而无法在设备上执行。为了解决这个问题,本文介绍了一种轻量级GUI元素定位VLM——GoClick,它只有2.3亿参数,但实现了出色的视觉定位精度,甚至与更大的模型相媲美。简单地缩小现有的仅解码器VLM是设计轻量级模型的一种直接方法,但我们的实验表明,这种方法会产生次优的结果。相反,我们选择了一种编码器-解码器架构,它在GUI定位任务的小参数规模下优于仅解码器的替代方案。此外,小型VLM的有限容量促使我们开发了一种渐进式数据提炼流程,该流程利用任务类型过滤和数据比例调整,从1080万原始数据集中提取高质量的380万样本核心集。使用此核心集训练GoClick带来了显著的定位精度提升。我们的实验表明,GoClick在多个GUI元素定位基准测试中表现出色,同时保持了较小的尺寸和较高的推理速度。当集成到设备-云协作框架中时,GoClick还增强了GUI智能体的性能,其中GoClick帮助基于云的任务规划器执行精确的元素定位并实现更高的成功率。我们希望我们的方法能够为GUI智能体社区提供有意义的探索。
🔬 方法详解
问题定义:论文旨在解决GUI元素定位模型体积过大,难以在资源受限设备上部署的问题。现有的大型视觉-语言模型(VLM)虽然精度高,但参数量巨大,无法满足移动设备等平台的内存和计算需求,阻碍了GUI智能体在实际场景中的应用。
核心思路:论文的核心思路是设计一个轻量级的VLM,在保证定位精度的前提下,显著降低模型参数量。为此,作者探索了不同的模型架构,并提出了渐进式数据提炼流程,以提高训练数据的质量和效率。
技术框架:GoClick采用编码器-解码器架构。编码器负责提取图像特征,解码器负责根据自然语言指令定位GUI元素。训练过程包括两个阶段:首先,使用大规模原始数据集进行预训练;然后,使用提炼后的高质量核心数据集进行微调。整个框架旨在平衡模型大小、精度和推理速度。
关键创新:论文的关键创新在于:1) 选择了编码器-解码器架构,实验证明其在小参数规模下优于仅解码器架构;2) 提出了渐进式数据提炼流程,通过任务类型过滤和数据比例调整,有效提升了训练数据的质量,从而提高了模型的定位精度。
关键设计:渐进式数据提炼流程是关键设计之一。该流程首先根据任务类型过滤掉不相关的数据,然后调整不同类型数据的比例,以平衡数据集。此外,损失函数的设计也至关重要,需要考虑定位精度和模型泛化能力。具体的网络结构细节和参数设置在论文中有详细描述,但摘要中未明确给出。
📊 实验亮点
GoClick仅有2.3亿参数,在多个GUI元素定位基准测试中取得了与大型VLM相媲美的精度。实验表明,GoClick在保持小尺寸和高推理速度的同时,显著提升了GUI智能体的性能。具体性能数据和对比基线在论文中有详细描述,但摘要中未明确给出具体的提升幅度。
🎯 应用场景
GoClick可应用于移动设备上的自主GUI交互,例如自动化测试、辅助功能和智能助手。它能够帮助用户通过自然语言指令控制应用程序,提高用户体验和工作效率。此外,GoClick还可以应用于设备-云协作框架,实现更强大的GUI智能体功能。未来,该技术有望在智能家居、车载系统等领域得到广泛应用。
📄 摘要(原文)
Graphical User Interface (GUI) element grounding (precisely locating elements on screenshots based on natural language instructions) is fundamental for agents interacting with GUIs. Deploying this capability directly on resource-constrained devices like mobile phones is increasingly critical for GUI agents requiring low latency. However, this goal faces a significant challenge, as current visual grounding methods typically employ large vision-language model (VLM) (more than 2.5B parameters), making them impractical for on-device execution due to memory and computational constraints. To address this, this paper introduces GoClick, a lightweight GUI element grounding VLM with only 230M parameters that achieves excellent visual grounding accuracy, even on par with significantly larger models. Simply downsizing existing decoder-only VLMs is a straightforward way to design a lightweight model, but our experiments reveal that this approach yields suboptimal results. Instead, we select an encoder-decoder architecture, which outperforms decoder-only alternatives at small parameter scales for GUI grounding tasks. Additionally, the limited capacity of small VLMs encourages us to develop a Progressive Data Refinement pipeline that utilizes task type filtering and data ratio adjustment to extract a high-quality 3.8M-sample core set from a 10.8M raw dataset. Training GoClick using this core set brings notable grounding accuracy gains. Our experiments show that GoClick excels on multiple GUI element grounding benchmarks while maintaining a small size and high inference speed. GoClick also enhances GUI agent performance when integrated into a device-cloud collaboration framework, where GoClick helps cloud-based task planners perform precise element localization and achieve higher success rates. We hope our method serves as a meaningful exploration within the GUI agent community.