MedSPOT: A Workflow-Aware Sequential Grounding Benchmark for Clinical GUI

作者: Rozain Shakeel, Abdul Rahman Mohammad Ali, Muneeb Mushtaq, Tausifa Jan Saleem, Tajamul Ashraf

分类: cs.CV

发布日期: 2026-03-20

备注: Project page: https://rozainmalik.github.io/MedSPOT_web/

🔗 代码/项目: GITHUB

💡 一句话要点

MedSPOT：面向临床GUI工作流的序列化视觉定位基准测试

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 临床GUI 视觉定位 多模态学习 序列推理 工作流感知

📋 核心要点

现有GUI基准测试忽略了临床软件中工作流驱动的序列化推理需求，无法有效评估模型在真实医疗场景中的定位能力。
MedSPOT通过构建包含多个相互依赖步骤的临床GUI任务，将程序交互建模为结构化的空间决策序列。
该基准采用严格的序列评估协议，并在首次错误预测时终止评估，从而有效衡量多步骤工作流中的误差传播。

📝 摘要（中文）

尽管多模态大型语言模型（MLLMs）取得了快速进展，但它们在临床软件环境中执行可靠的视觉定位能力仍未得到充分探索。现有的GUI基准测试主要关注孤立的、单步的定位查询，忽略了真实医疗界面中所需的序列化、工作流驱动的推理，其中任务跨越独立的步骤和动态界面状态演变。我们引入MedSPOT，一个面向临床GUI环境的工作流感知序列化定位基准测试。与先前将定位视为独立预测任务的基准不同，MedSPOT将程序交互建模为一系列结构化的空间决策。该基准包含216个任务驱动的视频，带有597个带注释的关键帧，其中每个任务包含在真实医疗工作流程中的2到3个相互依赖的定位步骤。这种设计捕获了界面层次结构、上下文依赖关系以及在不断变化的条件下的精细空间精度。为了评估程序鲁棒性，我们提出了一种严格的序列评估协议，该协议在第一次不正确的定位预测时终止任务评估，明确测量多步骤工作流程中的误差传播。我们进一步引入了一个全面的失败分类法，包括边缘偏差、小目标错误、无预测、近失、远失和工具栏混淆，以实现对临床GUI环境中模型行为的系统诊断。通过将评估从孤立的定位转移到工作流感知的序列推理，MedSPOT建立了一个现实且安全关键的基准，用于评估医疗软件环境中的多模态模型。

🔬 方法详解

问题定义：现有GUI视觉定位基准测试主要关注孤立的单步查询，缺乏对真实临床软件中复杂工作流的建模能力。这些基准无法有效评估模型在多步骤任务中的推理和定位能力，尤其是在误差传播方面。现有方法难以应对临床GUI中的界面层级、上下文依赖以及精细的空间定位需求。

核心思路：MedSPOT的核心思路是将临床GUI交互建模为一系列结构化的空间决策序列，即一个工作流。通过构建包含多个相互依赖步骤的任务，可以更真实地模拟临床软件的使用场景，并评估模型在序列化推理和定位方面的能力。这种方法强调了上下文信息的重要性，并考虑了误差在多步骤任务中的传播效应。

技术框架：MedSPOT基准测试包含以下几个关键组成部分：1) 任务驱动的视频数据集，包含216个视频，涵盖真实的医疗工作流程。2) 带有注释的关键帧，共597个，每个任务包含2-3个相互依赖的定位步骤。3) 严格的序列评估协议，在首次错误预测时终止任务评估。4) 综合的失败分类法，用于诊断模型在临床GUI环境中的行为。整体流程是：给定一个任务视频，模型需要预测每个关键帧中的目标位置，然后根据序列评估协议判断任务是否成功。

关键创新：MedSPOT最重要的技术创新在于其工作流感知的序列化评估方法。与传统的孤立评估不同，MedSPOT强调了任务的序列性，并考虑了上下文信息对定位的影响。通过序列评估协议，可以更准确地评估模型在多步骤任务中的鲁棒性和误差传播情况。此外，MedSPOT还提出了一个全面的失败分类法，可以帮助研究人员更好地理解模型的行为，并针对性地改进模型。

关键设计：MedSPOT的关键设计包括：1) 任务选择：选择具有代表性的临床GUI工作流程，确保任务的真实性和实用性。2) 关键帧标注：对每个任务的关键帧进行精细标注，包括目标位置、类型等信息。3) 序列评估协议：采用严格的序列评估协议，确保评估的准确性和可靠性。4) 失败分类法：设计全面的失败分类法，涵盖常见的定位错误类型，例如边缘偏差、小目标错误等。这些设计共同保证了MedSPOT基准测试的质量和有效性。

🖼️ 关键图片

📊 实验亮点

MedSPOT基准测试包含216个任务驱动的视频和597个带注释的关键帧，涵盖真实的医疗工作流程。该基准测试采用严格的序列评估协议，并在首次错误预测时终止评估，从而有效衡量多步骤工作流中的误差传播。此外，MedSPOT还提出了一个全面的失败分类法，可以帮助研究人员更好地理解模型的行为。

🎯 应用场景

MedSPOT可用于评估和改进多模态模型在医疗软件环境中的视觉定位能力，提高临床决策支持系统的可靠性和安全性。该基准测试有助于开发更智能、更易用的医疗界面，从而提升医护人员的工作效率，并减少医疗差错。未来，MedSPOT可以扩展到其他类型的专业GUI环境，例如金融、法律等。

📄 摘要（原文）

Despite the rapid progress of Multimodal Large Language Models (MLLMs), their ability to perform reliable visual grounding in high-stakes clinical software environments remains underexplored. Existing GUI benchmarks largely focus on isolated, single-step grounding queries, overlooking the sequential, workflow-driven reasoning required in real-world medical interfaces, where tasks evolve across independent steps and dynamic interface states. We introduce MedSPOT, a workflow-aware sequential grounding benchmark for clinical GUI environments. Unlike prior benchmarks that treat grounding as a standalone prediction task, MedSPOT models procedural interaction as a sequence of structured spatial decisions. The benchmark comprises 216 task-driven videos with 597 annotated keyframes, in which each task consists of 2 to 3 interdependent grounding steps within realistic medical workflows. This design captures interface hierarchies, contextual dependencies, and fine-grained spatial precision under evolving conditions. To evaluate procedural robustness, we propose a strict sequential evaluation protocol that terminates task assessment upon the first incorrect grounding prediction, explicitly measuring error propagation in multi-step workflows. We further introduce a comprehensive failure taxonomy, including edge bias, small-target errors, no prediction, near miss, far miss, and toolbar confusion, to enable systematic diagnosis of model behavior in clinical GUI settings. By shifting evaluation from isolated grounding to workflow-aware sequential reasoning, MedSPOT establishes a realistic and safety-critical benchmark for assessing multimodal models in medical software environments. Code and data are available at: https://github.com/Tajamul21/MedSPOT.

MedSPOT: A Workflow-Aware Sequential Grounding Benchmark for Clinical GUI

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理