SparkUI-Parser: Enhancing GUI Perception with Robust Grounding and Parsing

作者: Hongyi Jing, Jiafu Chen, Chen Rao, Ziqiang Dang, Jiajie Teng, Tianyi Chu, Juncheng Mo, Shuo Fang, Huaizhong Lin, Rui Lv, Chenguang Ma, Lei Zhao

分类: cs.AI, cs.CL, cs.CV, cs.HC

发布日期: 2025-09-05

🔗 代码/项目: GITHUB

💡 一句话要点

提出SparkUI-Parser，通过鲁棒的坐标定位和解析增强GUI感知能力。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: GUI感知 多模态学习 坐标定位 界面解析 深度学习

📋 核心要点

现有GUI感知MLLM依赖离散坐标建模，存在定位精度低、推理速度慢的问题，且无法解析整个界面。
SparkUI-Parser通过连续坐标建模、token router和坐标解码器，提升定位精度和推理速度。
引入基于匈牙利匹配的拒绝机制，减少误报，并在ScreenParse等基准测试中超越SOTA方法。

📝 摘要（中文）

现有的用于GUI感知的多模态大型语言模型(MLLM)已经取得了显著进展。然而，先前的方法仍然存在以下挑战：1)它们基于文本自回归机制对离散坐标进行建模，导致定位精度较低且推理速度较慢。2)它们只能定位预定义的元素集合，而无法解析整个界面，这阻碍了广泛应用和对下游任务的支持。为了解决上述问题，我们提出了一种新的端到端框架SparkUI-Parser，该框架同时实现了更高的定位精度和对整个界面的细粒度解析能力。具体来说，我们没有使用基于概率的离散建模，而是基于预训练的多模态大型语言模型(MLLM)以及额外的token router和坐标解码器，对坐标进行连续建模。这有效地缓解了MLLM离散输出特性和逐token生成过程中的固有局限性，从而提高了精度和推理速度。为了进一步增强鲁棒性，我们引入了一种基于改进的匈牙利匹配算法的拒绝机制，该机制使模型能够识别和拒绝不存在的元素，从而减少误报。此外，我们提出了ScreenParse，这是一个严格构建的基准，用于系统地评估GUI模型在各种场景下的结构感知能力。大量的实验表明，我们的方法在ScreenSpot、ScreenSpot-v2、CAGUI-Grounding和ScreenParse基准测试中始终优于SOTA方法。资源可在https://github.com/antgroup/SparkUI-Parser获取。

🔬 方法详解

问题定义：论文旨在解决现有多模态大型语言模型（MLLM）在GUI感知任务中存在的两个主要问题：一是基于文本自回归的离散坐标建模导致定位精度不高和推理速度慢；二是只能定位预定义的元素集合，无法对整个GUI界面进行解析，限制了其应用范围。现有方法的痛点在于无法兼顾高精度、高效率和全面的界面理解。

核心思路：论文的核心思路是将离散坐标建模转换为连续坐标建模，并引入拒绝机制来提高模型的鲁棒性。通过连续建模，避免了MLLM逐token生成带来的误差累积和速度瓶颈。拒绝机制则可以有效过滤掉模型预测的错误元素，减少假阳性。

技术框架：SparkUI-Parser是一个端到端的框架，主要包含以下几个模块：1) 预训练的MLLM：作为基础模型，用于提取图像和文本特征。2) Token Router：用于将MLLM的输出特征路由到坐标解码器。3) 坐标解码器：用于将特征解码为连续的坐标值。4) 基于匈牙利匹配的拒绝机制：用于识别和拒绝不存在的元素。

关键创新：论文最重要的技术创新点在于将离散坐标建模转换为连续坐标建模，并结合拒绝机制来提高模型的精度和鲁棒性。与现有方法相比，SparkUI-Parser不再依赖于逐token生成坐标，而是直接预测连续值，从而提高了定位精度和推理速度。拒绝机制则进一步提升了模型的可靠性。

关键设计：论文的关键设计包括：1) 使用预训练的MLLM作为特征提取器。2) 设计Token Router将MLLM的输出特征传递给坐标解码器。3) 使用连续坐标解码器预测GUI元素的边界框坐标。4) 引入基于改进的匈牙利匹配算法的拒绝机制，该机制通过计算预测框和真实框之间的匹配度，并设置阈值来判断是否拒绝某个预测框。损失函数方面，可能采用了回归损失（如L1或L2损失）来优化坐标预测，并可能结合了分类损失来辅助元素类型的识别。

🖼️ 关键图片

📊 实验亮点

实验结果表明，SparkUI-Parser在ScreenSpot、ScreenSpot-v2、CAGUI-Grounding和ScreenParse等基准测试中均优于SOTA方法，证明了其在GUI感知任务中的有效性。具体性能提升数据未知，但摘要强调了“consistently outperforms SOTA methods”，表明性能提升具有普遍性。

🎯 应用场景

SparkUI-Parser可应用于自动化测试、UI设计辅助、无障碍访问等领域。通过精确解析GUI结构，可以自动生成测试用例、辅助设计师进行界面优化，并帮助视障人士更好地理解和操作电子设备。该研究有望提升人机交互的效率和用户体验。

📄 摘要（原文）

The existing Multimodal Large Language Models (MLLMs) for GUI perception have made great progress. However, the following challenges still exist in prior methods: 1) They model discrete coordinates based on text autoregressive mechanism, which results in lower grounding accuracy and slower inference speed. 2) They can only locate predefined sets of elements and are not capable of parsing the entire interface, which hampers the broad application and support for downstream tasks. To address the above issues, we propose SparkUI-Parser, a novel end-to-end framework where higher localization precision and fine-grained parsing capability of the entire interface are simultaneously achieved. Specifically, instead of using probability-based discrete modeling, we perform continuous modeling of coordinates based on a pre-trained Multimodal Large Language Model (MLLM) with an additional token router and coordinate decoder. This effectively mitigates the limitations inherent in the discrete output characteristics and the token-by-token generation process of MLLMs, consequently boosting both the accuracy and the inference speed. To further enhance robustness, a rejection mechanism based on a modified Hungarian matching algorithm is introduced, which empowers the model to identify and reject non-existent elements, thereby reducing false positives. Moreover, we present ScreenParse, a rigorously constructed benchmark to systematically assess structural perception capabilities of GUI models across diverse scenarios. Extensive experiments demonstrate that our approach consistently outperforms SOTA methods on ScreenSpot, ScreenSpot-v2, CAGUI-Grounding and ScreenParse benchmarks. The resources are available at https://github.com/antgroup/SparkUI-Parser.

SparkUI-Parser: Enhancing GUI Perception with Robust Grounding and Parsing

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理