GoClick: Lightweight Element Grounding Model for Autonomous GUI Interaction

作者: Hongxin Li, Yuntao Chen, Zhaoxiang Zhang

分类: cs.CV

发布日期: 2026-04-27

备注: Technical Report

💡 一句话要点

提出GoClick轻量级GUI元素定位模型，用于资源受限设备上的自主GUI交互。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: GUI元素定位 视觉-语言模型 轻量级模型 编码器-解码器 数据提炼

📋 核心要点

现有视觉定位模型庞大，难以在移动设备等资源受限设备上部署，限制了GUI智能体的应用。
GoClick采用编码器-解码器架构，并设计渐进式数据提炼流程，在保证精度的同时显著降低模型大小。
实验表明，GoClick在多个GUI元素定位基准测试中表现出色，且能提升设备-云协作框架下GUI智能体的性能。

📝 摘要（中文）

图形用户界面(GUI)元素定位（基于自然语言指令在截图中精确定位元素）是智能体与GUI交互的基础。在移动电话等资源受限设备上直接部署此功能对于需要低延迟的GUI智能体至关重要。然而，由于当前的视觉定位方法通常采用大型视觉-语言模型(VLM)（超过25亿参数），这使得它们因内存和计算限制而无法在设备上执行。为了解决这个问题，本文介绍了一种轻量级GUI元素定位VLM——GoClick，它只有2.3亿参数，但实现了出色的视觉定位精度，甚至与更大的模型相媲美。简单地缩小现有的仅解码器VLM是设计轻量级模型的一种直接方法，但我们的实验表明，这种方法会产生次优的结果。相反，我们选择了一种编码器-解码器架构，它在GUI定位任务的小参数规模下优于仅解码器的替代方案。此外，小型VLM的有限容量促使我们开发了一种渐进式数据提炼流程，该流程利用任务类型过滤和数据比例调整，从1080万原始数据集中提取高质量的380万样本核心集。使用此核心集训练GoClick带来了显著的定位精度提升。我们的实验表明，GoClick在多个GUI元素定位基准测试中表现出色，同时保持了较小的尺寸和较高的推理速度。当集成到设备-云协作框架中时，GoClick还增强了GUI智能体的性能，其中GoClick帮助基于云的任务规划器执行精确的元素定位并实现更高的成功率。我们希望我们的方法能够为GUI智能体社区提供有意义的探索。

🔬 方法详解

问题定义：论文旨在解决GUI元素定位模型体积过大，难以在资源受限设备上部署的问题。现有的大型视觉-语言模型（VLM）虽然精度高，但参数量巨大，无法满足移动设备等平台的内存和计算需求，阻碍了GUI智能体在实际场景中的应用。

核心思路：论文的核心思路是设计一个轻量级的VLM，在保证定位精度的前提下，显著降低模型参数量。为此，作者探索了不同的模型架构，并提出了渐进式数据提炼流程，以提高训练数据的质量和效率。

技术框架：GoClick采用编码器-解码器架构。编码器负责提取图像特征，解码器负责根据自然语言指令定位GUI元素。训练过程包括两个阶段：首先，使用大规模原始数据集进行预训练；然后，使用提炼后的高质量核心数据集进行微调。整个框架旨在平衡模型大小、精度和推理速度。

关键创新：论文的关键创新在于：1) 选择了编码器-解码器架构，实验证明其在小参数规模下优于仅解码器架构；2) 提出了渐进式数据提炼流程，通过任务类型过滤和数据比例调整，有效提升了训练数据的质量，从而提高了模型的定位精度。

关键设计：渐进式数据提炼流程是关键设计之一。该流程首先根据任务类型过滤掉不相关的数据，然后调整不同类型数据的比例，以平衡数据集。此外，损失函数的设计也至关重要，需要考虑定位精度和模型泛化能力。具体的网络结构细节和参数设置在论文中有详细描述，但摘要中未明确给出。

📊 实验亮点

GoClick仅有2.3亿参数，在多个GUI元素定位基准测试中取得了与大型VLM相媲美的精度。实验表明，GoClick在保持小尺寸和高推理速度的同时，显著提升了GUI智能体的性能。具体性能数据和对比基线在论文中有详细描述，但摘要中未明确给出具体的提升幅度。

🎯 应用场景

GoClick可应用于移动设备上的自主GUI交互，例如自动化测试、辅助功能和智能助手。它能够帮助用户通过自然语言指令控制应用程序，提高用户体验和工作效率。此外，GoClick还可以应用于设备-云协作框架，实现更强大的GUI智能体功能。未来，该技术有望在智能家居、车载系统等领域得到广泛应用。

📄 摘要（原文）

Graphical User Interface (GUI) element grounding (precisely locating elements on screenshots based on natural language instructions) is fundamental for agents interacting with GUIs. Deploying this capability directly on resource-constrained devices like mobile phones is increasingly critical for GUI agents requiring low latency. However, this goal faces a significant challenge, as current visual grounding methods typically employ large vision-language model (VLM) (more than 2.5B parameters), making them impractical for on-device execution due to memory and computational constraints. To address this, this paper introduces GoClick, a lightweight GUI element grounding VLM with only 230M parameters that achieves excellent visual grounding accuracy, even on par with significantly larger models. Simply downsizing existing decoder-only VLMs is a straightforward way to design a lightweight model, but our experiments reveal that this approach yields suboptimal results. Instead, we select an encoder-decoder architecture, which outperforms decoder-only alternatives at small parameter scales for GUI grounding tasks. Additionally, the limited capacity of small VLMs encourages us to develop a Progressive Data Refinement pipeline that utilizes task type filtering and data ratio adjustment to extract a high-quality 3.8M-sample core set from a 10.8M raw dataset. Training GoClick using this core set brings notable grounding accuracy gains. Our experiments show that GoClick excels on multiple GUI element grounding benchmarks while maintaining a small size and high inference speed. GoClick also enhances GUI agent performance when integrated into a device-cloud collaboration framework, where GoClick helps cloud-based task planners perform precise element localization and achieve higher success rates. We hope our method serves as a meaningful exploration within the GUI agent community.

GoClick: Lightweight Element Grounding Model for Autonomous GUI Interaction

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理