ScreenSpot-Pro: GUI Grounding for Professional High-Resolution Computer Use

作者: Kaixin Li, Ziyang Meng, Hongzhan Lin, Ziyang Luo, Yuchen Tian, Jing Ma, Zhiyong Huang, Tat-Seng Chua

分类: cs.CV, cs.HC, cs.MM

发布日期: 2025-04-04

备注: 13pages

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

ScreenSpot-Pro：针对专业高分辨率计算机使用的GUI定位基准与ScreenSeekeR方法

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: GUI定位 多模态大语言模型 高分辨率 专业应用 视觉搜索 GUI规划 ScreenSpot-Pro

📋 核心要点

现有GUI代理在通用任务表现良好，但在高分辨率、小目标、复杂环境的专业领域应用不足。
论文提出ScreenSeekeR，利用规划器的GUI知识指导级联搜索，缩小搜索范围，提升定位精度。
ScreenSeekeR在ScreenSpot-Pro基准上达到48.1%的准确率，显著优于现有模型，无需额外训练。

📝 摘要（中文）

多模态大型语言模型（MLLM）的最新进展显著推动了GUI代理在网页浏览和手机使用等通用任务中的发展。然而，它们在专业领域的应用仍未得到充分探索。这些专业工作流程对GUI感知模型提出了独特的挑战，包括高分辨率显示器、更小的目标尺寸和复杂的环境。本文提出了ScreenSpot-Pro，这是一个新的基准，旨在严格评估MLLM在高分辨率专业环境中的定位能力。该基准包含来自各种专业领域的真实高分辨率图像，并附有专家注释，涵盖五个行业的23个应用程序和三个操作系统。现有的GUI定位模型在这个数据集上的表现不佳，最好的模型仅达到18.9%的准确率。实验表明，策略性地减少搜索区域可以提高准确率。基于这一洞察，我们提出了一种视觉搜索方法ScreenSeekeR，该方法利用强大规划器的GUI知识来指导级联搜索，在没有任何额外训练的情况下实现了48.1%的最先进性能。我们希望我们的基准和发现能够促进专业应用GUI代理的开发。

🔬 方法详解

问题定义：论文旨在解决多模态大语言模型（MLLM）在专业领域高分辨率GUI界面中的目标定位问题。现有方法在处理高分辨率、小目标以及复杂界面时，定位精度显著下降，无法满足专业应用的需求。现有方法通常直接对整个屏幕进行搜索，效率低且容易受到干扰。

核心思路：论文的核心思路是利用GUI的结构化知识，通过一个强大的规划器来指导视觉搜索过程，从而缩小搜索范围，提高定位精度。具体来说，规划器根据GUI的逻辑结构预测可能的目标区域，然后视觉模型只需要在这些区域内进行搜索，从而减少了搜索空间，提高了效率和准确性。

技术框架：ScreenSeekeR采用级联搜索框架。首先，一个GUI规划器根据当前任务和GUI状态，预测可能包含目标元素的区域。然后，一个视觉搜索模块在这些预测区域内进行搜索，定位目标元素。如果第一次搜索失败，系统会根据规划器的反馈，调整搜索策略并进行第二次搜索。这个过程可以迭代多次，直到找到目标元素或达到最大搜索次数。

关键创新：ScreenSeekeR的关键创新在于将GUI的结构化知识融入到视觉搜索过程中。传统的视觉搜索方法通常只依赖于图像信息，而忽略了GUI的逻辑结构。通过利用GUI的结构化知识，ScreenSeekeR可以更有效地缩小搜索范围，提高定位精度。此外，级联搜索框架允许系统根据搜索结果动态调整搜索策略，进一步提高了鲁棒性。

关键设计：ScreenSeekeR使用预训练的大型语言模型作为GUI规划器，该模型具有丰富的GUI知识和推理能力。视觉搜索模块可以使用各种现有的目标检测或图像分割模型。论文中没有明确提及具体的损失函数或网络结构，但强调了规划器在指导搜索过程中的重要性。具体实现细节（例如规划器的prompt设计、搜索区域的划分策略等）可能需要根据具体的应用场景进行调整。

🖼️ 关键图片

📊 实验亮点

ScreenSeekeR在ScreenSpot-Pro基准上取得了显著的性能提升，达到了48.1%的准确率，而现有最佳模型仅为18.9%。这表明ScreenSeekeR能够有效地解决高分辨率专业GUI界面中的目标定位问题，且无需额外的训练数据。

🎯 应用场景

该研究成果可应用于自动化测试、RPA（机器人流程自动化）、辅助技术等领域。例如，可以利用该技术开发智能测试工具，自动执行GUI测试用例；也可以用于构建更智能的RPA系统，自动完成复杂的业务流程；还可以帮助残疾人更方便地使用计算机。

📄 摘要（原文）

Recent advancements in Multi-modal Large Language Models (MLLMs) have led to significant progress in developing GUI agents for general tasks such as web browsing and mobile phone use. However, their application in professional domains remains under-explored. These specialized workflows introduce unique challenges for GUI perception models, including high-resolution displays, smaller target sizes, and complex environments. In this paper, we introduce ScreenSpot-Pro, a new benchmark designed to rigorously evaluate the grounding capabilities of MLLMs in high-resolution professional settings. The benchmark comprises authentic high-resolution images from a variety of professional domains with expert annotations. It spans 23 applications across five industries and three operating systems. Existing GUI grounding models perform poorly on this dataset, with the best model achieving only 18.9%. Our experiments reveal that strategically reducing the search area enhances accuracy. Based on this insight, we propose ScreenSeekeR, a visual search method that utilizes the GUI knowledge of a strong planner to guide a cascaded search, achieving state-of-the-art performance with 48.1% without any additional training. We hope that our benchmark and findings will advance the development of GUI agents for professional applications. Code, data and leaderboard can be found at https://gui-agent.github.io/grounding-leaderboard.

ScreenSpot-Pro: GUI Grounding for Professional High-Resolution Computer Use

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理