GUIDE: A Benchmark for Understanding and Assisting Users in Open-Ended GUI Tasks

📄 arXiv: 2603.25864v1 📥 PDF

作者: Saelyne Yang, Jaesang Yu, Yi-Hao Peng, Kevin Qinghong Lin, Jae Won Cho, Yale Song, Juho Kim

分类: cs.CV, cs.AI, cs.HC

发布日期: 2026-03-26

备注: Accepted at CVPR 2026


💡 一句话要点

提出GUIDE基准,用于理解和辅助用户完成开放式GUI任务

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: GUI代理 用户意图检测 人机协作 基准数据集 多模态学习

📋 核心要点

  1. 现有GUI代理主要关注自动化操作,忽略了用户意图和自主性,限制了人机协作的潜力。
  2. GUIDE基准旨在评估AI模型理解用户行为、推断意图并提供辅助的能力,从而促进更有效的人机协作。
  3. 实验表明,现有模型在GUIDE基准上表现不佳,但提供用户上下文能显著提升性能,凸显了用户理解的重要性。

📝 摘要(中文)

图形用户界面(GUI)代理有潜力协助用户与复杂的软件(例如,PowerPoint,Photoshop)进行交互。以往的研究主要集中于通过点击和键盘操作来自动化用户行为,但这种模式忽略了人类的意图,用户更看重探索、迭代和完善想法的能力,同时保持自主性。为了超越自动化并走向协作,GUI代理必须理解用户在做什么以及为什么这样做。我们引入GUIDE(GUI用户意图检测评估),这是一个基准,用于评估AI模型在开放式GUI任务中感知用户行为、推断意图和提供帮助的能力。GUIDE包含来自120名新手用户演示的67.5小时屏幕录像,以及跨10个软件的自述旁白。GUIDE定义了三个任务——(i)行为状态检测,(ii)意图预测和(iii)帮助预测,这些任务测试模型识别行为状态、推理目标以及决定何时以及如何提供帮助的能力。对八个最先进的多模态模型的评估表明,所有模型都表现不佳,在行为状态和帮助预测方面的准确率仅为44.6%和55.0%。但是,提供用户上下文可以显着提高性能,从而将帮助预测提高多达50.2个百分点,这突出了结构化用户理解在有效帮助中的关键作用。我们的数据集可在https://guide-bench.github.io上找到。

🔬 方法详解

问题定义:论文旨在解决GUI代理无法有效理解用户意图并提供智能辅助的问题。现有方法主要关注自动化操作,缺乏对用户行为状态和目标的理解,导致无法根据用户实际需求提供帮助。这种局限性阻碍了人机在复杂GUI任务中的有效协作。

核心思路:论文的核心思路是通过构建一个包含丰富用户行为和意图信息的基准数据集GUIDE,来促进AI模型对用户意图的理解。GUIDE数据集包含屏幕录像和用户自述旁白,为模型提供了多模态的学习资源。通过在该数据集上训练和评估模型,可以提升模型在GUI任务中感知用户行为、推断意图和提供帮助的能力。

技术框架:GUIDE基准定义了三个任务:行为状态检测、意图预测和帮助预测。行为状态检测旨在识别用户当前的操作状态,例如“正在选择字体”;意图预测旨在推断用户的目标,例如“制作演示文稿”;帮助预测旨在判断何时以及如何向用户提供帮助。该基准提供了一个统一的评估平台,用于比较不同模型在这些任务上的性能。

关键创新:该论文的关键创新在于构建了一个大规模、多模态的GUI任务基准数据集GUIDE。该数据集包含丰富的用户行为和意图信息,为AI模型提供了学习和理解用户意图的宝贵资源。此外,该基准定义了三个具有挑战性的任务,可以全面评估模型在GUI任务中理解用户意图和提供辅助的能力。

关键设计:GUIDE数据集包含67.5小时的屏幕录像和用户自述旁白,涵盖10个不同的软件。数据集的标注包括用户行为状态、意图和所需的帮助信息。论文使用准确率作为评估指标,评估了八个最先进的多模态模型在GUIDE基准上的性能。实验结果表明,提供用户上下文信息可以显著提高模型的性能,这表明结构化用户理解在有效辅助中起着关键作用。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,现有最先进的多模态模型在GUIDE基准上表现不佳,行为状态检测准确率仅为44.6%,帮助预测准确率仅为55.0%。然而,提供用户上下文信息后,帮助预测准确率提升高达50.2个百分点,这充分证明了用户理解在GUI任务中的重要性,并为未来的研究方向提供了指导。

🎯 应用场景

该研究成果可应用于智能GUI助手的设计与开发,例如智能办公软件助手、图像处理软件助手等。这些助手能够理解用户的操作意图,并提供个性化的帮助和建议,从而提高用户的工作效率和软件使用体验。未来,该研究还可以扩展到其他领域,例如智能家居控制、智能车载系统等,实现更自然、更智能的人机交互。

📄 摘要(原文)

Graphical User Interface (GUI) agents have the potential to assist users in interacting with complex software (e.g., PowerPoint, Photoshop). While prior research has primarily focused on automating user actions through clicks and keystrokes, this paradigm overlooks human intention, where users value the ability to explore, iterate, and refine their ideas while maintaining agency. To move beyond automation and toward collaboration, GUI agents must understand what users are doing and why. We introduce GUIDE (GUI User Intent Detection Evaluation), a benchmark that evaluates AI models on their ability to perceive user behavior, infer intent, and provide assistance in open-ended GUI tasks. GUIDE consists of 67.5 hours of screen recordings from 120 novice user demonstrations with think-aloud narrations, across 10 software. GUIDE defines three tasks - (i) Behavior State Detection, (ii) Intent Prediction, and (iii) Help Prediction that test a model's ability to recognize behavior state, reason about goals, and decide when and how to help. Evaluations across eight state-of-the-art multimodal models reveal that all models struggled, achieving only 44.6% and 55.0% accuracy on behavior state and help prediction. However, providing user context significantly improved the performance, raising help prediction by up to 50.2pp, highlighting the critical role of structured user understanding in effective assistance. Our dataset is available at https://guide-bench.github.io.