Phi-Ground Tech Report: Advancing Perception in GUI Grounding
作者: Miaosen Zhang, Ziqiang Xu, Jialiang Zhu, Qi Dai, Kai Qiu, Yifan Yang, Chong Luo, Tianyi Chen, Justin Wagle, Tim Franklin, Baining Guo
分类: cs.CV, cs.AI, cs.MM
发布日期: 2025-07-31
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
Phi-Ground:提升GUI环境感知的计算机使用Agent的性能
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: GUI环境感知 计算机使用Agent 多模态推理 模型训练 数据收集
📋 核心要点
- 现有GUI环境感知模型在复杂基准测试中准确率低,难以满足实际部署需求,单次错误点击可能导致严重后果。
- Phi-Ground通过深入研究数据收集和模型训练细节,优化训练流程,从而提升GUI环境感知模型的性能。
- Phi-Ground模型在多个GUI环境感知基准测试中取得了领先的性能,尤其是在参数量小于10B的模型中。
📝 摘要(中文)
随着多模态推理模型的发展,类似于《钢铁侠》中贾维斯的计算机使用Agent(CUA)正逐渐成为现实。GUI环境感知是CUA执行实际操作的核心组成部分,类似于机器人中的机械控制,直接决定了系统的成败。它决定了诸如点击和键入等动作,以及点击的坐标等相关参数。目前,端到端环境感知模型在ScreenSpot-pro和UI-Vision等具有挑战性的基准测试中的准确率仍然低于65%,表明它们远未达到可部署的水平。在这项工作中,我们对环境感知模型的训练进行了实证研究,检查了从数据收集到模型训练的细节。最终,我们开发了Phi-Ground模型系列,该系列在所有五个环境感知基准测试中,针对参数小于10B的模型,实现了最先进的性能。在端到端模型设置中,我们的模型仍然取得了SOTA结果,在ScreenSpot-pro上获得了43.2分,在UI-Vision上获得了27.2分。我们相信,本文中讨论的各种细节,以及我们的成功和失败,不仅阐明了环境感知模型的构建,而且有益于其他感知任务。
🔬 方法详解
问题定义:论文旨在解决计算机使用Agent(CUA)在图形用户界面(GUI)中进行精确环境感知的问题。现有端到端模型在复杂GUI环境下的定位精度不足,容易产生误操作,严重限制了CUA的实际应用。现有方法的痛点在于对GUI元素的理解不够深入,无法准确识别和定位目标元素。
核心思路:论文的核心思路是通过细致地分析数据收集和模型训练过程中的各个环节,找出影响模型性能的关键因素,并进行针对性的优化。作者认为,提升模型性能的关键在于对GUI元素的更深入理解和更精确的定位。
技术框架:论文构建了Phi-Ground模型家族,其整体框架未知,但强调了数据收集和模型训练的重要性。具体流程可能包括:1) 数据收集与清洗:收集高质量的GUI交互数据,并进行清洗和标注。2) 模型训练:使用收集到的数据训练环境感知模型。3) 性能评估:在多个基准测试中评估模型性能。
关键创新:论文的关键创新在于对GUI环境感知模型的训练过程进行了深入的实证研究,并提出了针对性的优化策略。虽然具体的技术细节未知,但强调了数据和训练细节的重要性,这与以往侧重模型结构设计的思路有所不同。
关键设计:论文中关于关键设计的具体细节未知,但可以推测可能包括:1) 数据增强策略:采用多种数据增强方法,提高模型的泛化能力。2) 损失函数设计:设计合适的损失函数,引导模型学习更精确的定位信息。3) 网络结构优化:针对GUI元素的特点,优化网络结构,提高模型的表达能力。
🖼️ 关键图片
📊 实验亮点
Phi-Ground模型在多个GUI环境感知基准测试中取得了最先进的性能,尤其是在参数量小于10B的模型中。在端到端模型设置中,Phi-Ground在ScreenSpot-pro上获得了43.2分,在UI-Vision上获得了27.2分,超越了现有模型。
🎯 应用场景
该研究成果可应用于各种需要与GUI进行交互的计算机使用Agent(CUA)中,例如自动化测试、RPA(机器人流程自动化)、智能助手等。通过提高GUI环境感知的准确性,可以显著提升CUA的可靠性和效率,降低误操作的风险,从而实现更智能、更高效的人机交互。未来,该技术有望在更多领域得到应用,例如智能家居、智能车载系统等。
📄 摘要(原文)
With the development of multimodal reasoning models, Computer Use Agents (CUAs), akin to Jarvis from \textit{"Iron Man"}, are becoming a reality. GUI grounding is a core component for CUAs to execute actual actions, similar to mechanical control in robotics, and it directly leads to the success or failure of the system. It determines actions such as clicking and typing, as well as related parameters like the coordinates for clicks. Current end-to-end grounding models still achieve less than 65\% accuracy on challenging benchmarks like ScreenSpot-pro and UI-Vision, indicating they are far from being ready for deployment. % , as a single misclick can result in unacceptable consequences. In this work, we conduct an empirical study on the training of grounding models, examining details from data collection to model training. Ultimately, we developed the \textbf{Phi-Ground} model family, which achieves state-of-the-art performance across all five grounding benchmarks for models under $10B$ parameters in agent settings. In the end-to-end model setting, our model still achieves SOTA results with scores of \textit{\textbf{43.2}} on ScreenSpot-pro and \textit{\textbf{27.2}} on UI-Vision. We believe that the various details discussed in this paper, along with our successes and failures, not only clarify the construction of grounding models but also benefit other perception tasks. Project homepage: \href{https://zhangmiaosen2000.github.io/Phi-Ground/}{https://zhangmiaosen2000.github.io/Phi-Ground/}