SiMing-Bench: Evaluating Procedural Correctness from Continuous Interactions in Clinical Skill Videos
作者: Xiyang Huang, Jiawei Lin, Keying Wu, Jiaxin Huang, Kailai Yang, Renxiong Wei, Cheng zeng, Jiayi Xiang, Ziyan Kuang, Min Peng, Qianqian Xie, Sophia Ananiadou
分类: cs.CV, cs.CL, cs.HC
发布日期: 2026-04-10
💡 一句话要点
SiMing-Bench:评估临床技能视频中持续交互的过程正确性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 临床技能视频理解 程序正确性评估 多模态大语言模型 交互驱动状态更新 医疗人工智能
📋 核心要点
- 现有视频基准测试忽略了MLLM在临床技能视频中跟踪交互驱动的状态更新,并判断后续动作正确性的能力。
- SiMing-Bench通过构建包含专家标注的临床技能视频数据集,并结合标准化的评估标准,来评估模型的过程判断能力。
- 实验表明,现有MLLM在过程判断方面与医生判断的一致性较弱,瓶颈在于建模交互如何随时间更新程序状态。
📝 摘要(中文)
目前多模态大语言模型(MLLM)的视频基准测试侧重于事件识别、时间排序和长上下文回忆,但忽略了专家程序判断所需的一项更难的能力:跟踪持续交互如何更新程序状态,从而决定后续操作的正确性。我们推出了SiMing-Bench,这是第一个从完整临床技能视频中评估这种能力的基准。它旨在对基于标准流程的交互驱动状态更新是否在整个工作流程中保持程序正确性进行过程级别的判断。SiMing-Bench通过SiMing-Score实例化,SiMing-Score是一个由医生注释的真实临床技能检查视频数据集,涵盖心肺复苏、自动体外除颤器操作和呼吸气囊通气,每个视频都配有标准化的逐步评估标准和双重专家标签。在各种开源和闭源MLLM中,我们观察到与医生判断的一致性普遍较弱。此外,即使总体程序级别的相关性看起来可以接受,在评估标准定义的中间步骤上的表现仍然很差,这表明粗略的全局评估大大高估了当前模型的过程判断能力。使用二元步骤判断和步骤对齐剪辑的额外分析表明,瓶颈不仅仅是细粒度评分或时间定位,而是建模持续交互如何随时间更新程序状态。
🔬 方法详解
问题定义:现有视频理解基准测试主要关注事件识别、时间排序和长上下文回忆,缺乏对程序性任务中,模型根据交互更新状态并判断后续动作正确性的能力评估。在临床技能视频中,这种能力至关重要,因为操作的正确性依赖于之前的操作和状态变化。现有方法难以准确捕捉这种交互驱动的状态变化,导致程序性判断能力不足。
核心思路:SiMing-Bench的核心思路是构建一个专门用于评估模型在临床技能视频中程序正确性判断能力的基准。通过提供包含专家标注的视频数据和标准化的评估标准,可以更准确地衡量模型理解和推理程序性任务的能力。重点在于评估模型能否根据视频中发生的交互,正确更新内部状态,并基于此判断后续操作的正确性。
技术框架:SiMing-Bench包含以下几个关键组成部分:1) SiMing-Score数据集:包含真实临床技能检查视频,涵盖心肺复苏、自动体外除颤器操作和呼吸气囊通气等。2) 标准化评估标准:每个视频都配有标准化的逐步评估标准,用于评估每个步骤的正确性。3) 双重专家标签:每个视频都由两位专家进行标注,以确保标注的质量和一致性。4) 评估指标:使用多种评估指标来衡量模型与专家判断的一致性,包括程序级别的相关性和步骤级别的准确性。
关键创新:SiMing-Bench的关键创新在于其专注于评估模型在程序性任务中,根据交互更新状态并判断后续动作正确性的能力。与现有视频理解基准测试不同,SiMing-Bench更加强调对程序性知识的理解和推理。此外,SiMing-Bench还提供了高质量的专家标注数据和标准化的评估标准,为研究人员提供了一个可靠的评估平台。
关键设计:SiMing-Bench的关键设计包括:1) 视频选择:选择真实的临床技能检查视频,以确保数据的真实性和代表性。2) 评估标准设计:设计标准化的逐步评估标准,以确保评估的客观性和一致性。3) 标注流程:采用双重专家标注,并进行一致性检查,以确保标注的质量。4) 评估指标选择:选择合适的评估指标,以准确衡量模型与专家判断的一致性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,现有MLLM在SiMing-Bench上的表现与医生判断的一致性较弱,即使在总体程序级别相关性看起来可以接受的情况下,在评估标准定义的中间步骤上的表现仍然很差。这表明现有模型在程序性判断方面存在明显不足,需要进一步改进。此外,实验还表明,瓶颈不仅仅是细粒度评分或时间定位,而是建模持续交互如何随时间更新程序状态。
🎯 应用场景
SiMing-Bench的研究成果可应用于医疗培训、智能辅助诊断和机器人手术等领域。通过提高模型对临床技能视频的理解和推理能力,可以为医学生提供更有效的培训工具,辅助医生进行更准确的诊断,并为机器人手术提供更可靠的决策支持。此外,该研究还可以推广到其他程序性任务的视频理解,例如工业操作、烹饪等。
📄 摘要(原文)
Current video benchmarks for multimodal large language models (MLLMs) focus on event recognition, temporal ordering, and long-context recall, but overlook a harder capability required for expert procedural judgment: tracking how ongoing interactions update the procedural state and thereby determine the correctness of later actions. We introduce SiMing-Bench, the first benchmark for evaluating this capability from full-length clinical skill videos. It targets rubric-grounded process-level judgment of whether interaction-driven state updates preserve procedural correctness across an entire workflow. SiMing-Bench is instantiated with SiMing-Score, a physician-annotated dataset of real clinical skill examination videos spanning cardiopulmonary resuscitation, automated external defibrillator operation, and bag-mask ventilation, each paired with a standardized step-wise rubric and dual-expert labels. Across diverse open- and closed-source MLLMs, we observe consistently weak agreement with physician judgments. Moreover, weak performance on rubric-defined intermediate steps persists even when overall procedure-level correlation appears acceptable, suggesting that coarse global assessment substantially overestimates current models' procedural judgment ability. Additional analyses with binary step judgment and step-aligned clips indicate that the bottleneck is not merely fine-grained scoring or temporal localization, but modeling how continuous interactions update procedural state over time.