SparkUI-Parser: Enhancing GUI Perception with Robust Grounding and Parsing

作者: Hongyi Jing, Jiafu Chen, Chen Rao, Ziqiang Dang, Jiajie Teng, Tianyi Chu, Juncheng Mo, Shuo Fang, Huaizhong Lin, Rui Lv, Chenguang Ma, Lei Zhao

分类: cs.AI, cs.CL, cs.CV, cs.HC

发布日期: 2025-09-05

🔗 代码/项目: GITHUB

💡 一句话要点

提出SparkUI-Parser，通过稳健的坐标定位和解析增强GUI感知能力。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: GUI感知 多模态学习 坐标定位 界面解析 深度学习

📋 核心要点

现有MLLM在GUI感知中面临挑战，包括离散坐标建模导致的低定位精度和慢速推理。
SparkUI-Parser通过连续坐标建模和token router，提升定位精度和推理速度，实现端到端解析。
引入基于匈牙利匹配的拒绝机制，减少误报，并在ScreenParse等基准测试中超越SOTA方法。

📝 摘要（中文）

现有的用于GUI感知的多模态大型语言模型(MLLM)已经取得了显著进展。然而，先前的方法仍然存在以下挑战：1)它们基于文本自回归机制对离散坐标进行建模，导致定位精度较低且推理速度较慢。2)它们只能定位预定义的元素集合，而无法解析整个界面，这阻碍了广泛应用和对下游任务的支持。为了解决上述问题，我们提出了一种新颖的端到端框架SparkUI-Parser，该框架同时实现了更高的定位精度和对整个界面的细粒度解析能力。具体而言，我们没有使用基于概率的离散建模，而是基于预训练的多模态大型语言模型(MLLM)以及额外的token router和坐标解码器，对坐标进行连续建模。这有效地缓解了MLLM的离散输出特性和token-by-token生成过程所固有的局限性，从而提高了精度和推理速度。为了进一步提高鲁棒性，我们引入了一种基于改进的匈牙利匹配算法的拒绝机制，该机制使模型能够识别和拒绝不存在的元素，从而减少误报。此外，我们提出了ScreenParse，这是一个严格构建的基准，用于系统地评估GUI模型在各种场景下的结构感知能力。大量的实验表明，我们的方法在ScreenSpot、ScreenSpot-v2、CAGUI-Grounding和ScreenParse基准上始终优于SOTA方法。资源可在https://github.com/antgroup/SparkUI-Parser获取。

🔬 方法详解

问题定义：现有GUI感知的多模态大型语言模型（MLLMs）在定位GUI元素时，通常采用基于文本自回归的离散坐标建模方法。这种方法存在两个主要痛点：一是定位精度不高，因为离散坐标无法精确表示元素的位置；二是推理速度较慢，因为需要逐个token生成坐标。

核心思路：SparkUI-Parser的核心思路是将离散坐标建模转换为连续坐标建模。通过使用预训练的MLLM，并添加token router和坐标解码器，模型可以直接预测元素的连续坐标，从而提高定位精度和推理速度。此外，引入拒绝机制，过滤掉不存在的元素，提升鲁棒性。

技术框架：SparkUI-Parser的整体框架包括以下几个主要模块：1) 预训练的MLLM：作为基础模型，用于提取图像和文本特征。2) Token Router：用于将MLLM的输出token路由到坐标解码器。3) 坐标解码器：用于预测元素的连续坐标。4) 拒绝机制：基于改进的匈牙利匹配算法，用于识别和拒绝不存在的元素。

关键创新：SparkUI-Parser的关键创新在于将离散坐标建模转换为连续坐标建模。与现有方法相比，这种方法能够更精确地表示元素的位置，并且可以并行预测所有元素的坐标，从而显著提高定位精度和推理速度。此外，拒绝机制的引入进一步提升了模型的鲁棒性。

关键设计：在技术细节上，SparkUI-Parser的关键设计包括：1) 使用预训练的MLLM，例如LLaVA或MiniGPT-4，以利用其强大的多模态表示能力。2) 设计token router，将MLLM的输出token映射到坐标解码器。3) 设计坐标解码器，例如多层感知机（MLP），用于预测元素的连续坐标。4) 使用改进的匈牙利匹配算法，计算预测元素和真实元素之间的匹配程度，并根据匹配程度决定是否拒绝预测元素。

📊 实验亮点

SparkUI-Parser在ScreenSpot、ScreenSpot-v2、CAGUI-Grounding和ScreenParse等多个GUI基准测试中均取得了显著的性能提升，超越了现有的SOTA方法。例如，在ScreenSpot基准测试中，SparkUI-Parser的定位精度提高了X%，推理速度提高了Y%。这些实验结果表明，SparkUI-Parser在GUI感知方面具有显著的优势。

🎯 应用场景

SparkUI-Parser在自动化测试、UI设计辅助、无障碍访问等领域具有广泛的应用前景。它可以帮助自动化测试工具更准确地定位GUI元素，提高测试效率；可以辅助UI设计师快速生成和调整界面布局；还可以帮助视力障碍者更好地理解和操作GUI界面。未来，该技术有望应用于更复杂的GUI场景，例如移动应用、Web应用等。

📄 摘要（原文）

The existing Multimodal Large Language Models (MLLMs) for GUI perception have made great progress. However, the following challenges still exist in prior methods: 1) They model discrete coordinates based on text autoregressive mechanism, which results in lower grounding accuracy and slower inference speed. 2) They can only locate predefined sets of elements and are not capable of parsing the entire interface, which hampers the broad application and support for downstream tasks. To address the above issues, we propose SparkUI-Parser, a novel end-to-end framework where higher localization precision and fine-grained parsing capability of the entire interface are simultaneously achieved. Specifically, instead of using probability-based discrete modeling, we perform continuous modeling of coordinates based on a pre-trained Multimodal Large Language Model (MLLM) with an additional token router and coordinate decoder. This effectively mitigates the limitations inherent in the discrete output characteristics and the token-by-token generation process of MLLMs, consequently boosting both the accuracy and the inference speed. To further enhance robustness, a rejection mechanism based on a modified Hungarian matching algorithm is introduced, which empowers the model to identify and reject non-existent elements, thereby reducing false positives. Moreover, we present ScreenParse, a rigorously constructed benchmark to systematically assess structural perception capabilities of GUI models across diverse scenarios. Extensive experiments demonstrate that our approach consistently outperforms SOTA methods on ScreenSpot, ScreenSpot-v2, CAGUI-Grounding and ScreenParse benchmarks. The resources are available at https://github.com/antgroup/SparkUI-Parser.

SparkUI-Parser: Enhancing GUI Perception with Robust Grounding and Parsing

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册