Operating Room Workflow Analysis via Reasoning Segmentation over Digital Twins
作者: Yiqing Shen, Chenjia Li, Bohan Liu, Cheng-Yi Li, Tito Porras, Mathias Unberath
分类: eess.IV, cs.CV
发布日期: 2025-03-26
💡 一句话要点
提出ORDiRS框架,通过数字孪生和推理分割提升手术室工作流分析精度。
🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 手术室工作流分析 数字孪生 推理分割 大型语言模型 计算机视觉
📋 核心要点
- 现有手术室工作流分析依赖端到端深度学习,缺乏泛化能力,难以适应不同场景。
- ORDiRS框架利用数字孪生表示手术室环境,将推理分割解耦为推理、检索和合成三个步骤。
- 实验结果表明,ORDiRS在两个数据集上均优于现有方法,显著提升了分割精度。
📝 摘要(中文)
为了量化分析手术室(OR)工作流,从而提高患者护理质量和财务可持续性,本研究提出了一种基于数字孪生(DT)和推理分割(RS)的方法。现有方法依赖端到端深度神经网络,泛化性差,难以适应不同手术室场景。本研究提出ORDiRS框架,利用数字孪生表示手术室组件的语义和空间关系,将推理分割转化为“推理-检索-合成”范式,无需微调大型语言模型(LLM)。此外,提出了ORDiRS-Agent,它能将工作流分析查询分解为子查询,并结合文本解释和视觉证据生成响应。实验结果表明,ORDiRS在自建数据集和公共数据集上,cIoU分别提升了6.12%-9.74%。
🔬 方法详解
问题定义:现有手术室工作流分析方法依赖于端到端深度神经网络,这些方法在特定条件下表现良好,但缺乏灵活性和泛化能力。它们难以适应不同类型的手术室(例如,大型学术中心与乡村医院),并且需要大量的数据收集、标注和重新训练。因此,如何设计一种能够适应不同手术室场景,且无需大量数据标注的自动化工作流分析方法是一个关键问题。
核心思路:本论文的核心思路是利用数字孪生(Digital Twin)来表示手术室环境,并结合推理分割(Reasoning Segmentation)技术,将复杂的工作流分析任务分解为更易于处理的子任务。通过数字孪生,可以显式地建模手术室中各个组件之间的语义和空间关系,从而提高推理分割的准确性和鲁棒性。同时,将推理分割过程解耦为“推理-检索-合成”三个步骤,避免了直接微调大型语言模型,提高了模型的泛化能力。
技术框架:ORDiRS框架主要包含三个模块:数字孪生表示模块、推理分割模块和ORDiRS-Agent。首先,数字孪生表示模块构建手术室环境的数字孪生模型,该模型包含了手术室中各个组件的语义和空间关系。然后,推理分割模块将用户查询转化为一系列子查询,并利用数字孪生模型进行推理和检索,最终合成分割结果。最后,ORDiRS-Agent利用大型语言模型将用户查询分解为可管理的推理分割子查询,并结合详细的文本解释和视觉证据生成响应。
关键创新:本论文的关键创新在于提出了基于数字孪生的推理分割框架ORDiRS,该框架无需微调大型语言模型,即可实现对不同手术室场景的自动化工作流分析。与现有方法相比,ORDiRS能够更好地利用手术室环境的先验知识,提高推理分割的准确性和鲁棒性。此外,ORDiRS-Agent能够将复杂的工作流分析任务分解为更易于处理的子任务,并提供详细的文本解释和视觉证据,从而提高了用户对分析结果的理解和信任。
关键设计:数字孪生表示模块的关键设计在于如何有效地建模手术室中各个组件之间的语义和空间关系。论文中采用了一种基于图的表示方法,将手术室中的每个组件表示为一个节点,组件之间的关系表示为边。推理分割模块的关键设计在于如何将用户查询转化为一系列子查询,并利用数字孪生模型进行推理和检索。论文中采用了一种基于规则的推理方法,根据用户查询的语义,自动生成相应的子查询。ORDiRS-Agent的关键设计在于如何将大型语言模型与推理分割模块进行有效集成,从而实现对复杂工作流分析任务的自动化处理。
🖼️ 关键图片
📊 实验亮点
实验结果表明,ORDiRS在自建手术室数据集和公共手术室数据集上均取得了显著的性能提升。具体来说,ORDiRS在自建数据集上实现了6.12%的cIoU提升,在公共数据集上实现了9.74%的cIoU提升。这些结果表明,ORDiRS能够有效地利用数字孪生和推理分割技术,提高手术室工作流分析的准确性和鲁棒性,优于现有的最先进方法。
🎯 应用场景
该研究成果可应用于手术室效率优化、资源分配、人员培训和安全管理等多个领域。通过对手术室工作流程的精确分析,医院可以更好地了解手术室的运行状况,从而制定更合理的排班计划、优化资源配置、提高手术效率,并最终改善患者的护理质量和降低医疗成本。此外,该技术还可以用于手术室人员的培训,帮助他们更好地了解手术流程和操作规范。
📄 摘要(原文)
Analyzing operating room (OR) workflows to derive quantitative insights into OR efficiency is important for hospitals to maximize patient care and financial sustainability. Prior work on OR-level workflow analysis has relied on end-to-end deep neural networks. While these approaches work well in constrained settings, they are limited to the conditions specified at development time and do not offer the flexibility necessary to accommodate the OR workflow analysis needs of various OR scenarios (e.g., large academic center vs. rural provider) without data collection, annotation, and retraining. Reasoning segmentation (RS) based on foundation models offers this flexibility by enabling automated analysis of OR workflows from OR video feeds given only an implicit text query related to the objects of interest. Due to the reliance on large language model (LLM) fine-tuning, current RS approaches struggle with reasoning about semantic/spatial relationships and show limited generalization to OR video due to variations in visual characteristics and domain-specific terminology. To address these limitations, we first propose a novel digital twin (DT) representation that preserves both semantic and spatial relationships between the various OR components. Then, building on this foundation, we propose ORDiRS (Operating Room Digital twin representation for Reasoning Segmentation), an LLM-tuning-free RS framework that reformulates RS into a "reason-retrieval-synthesize" paradigm. Finally, we present ORDiRS-Agent, an LLM-based agent that decomposes OR workflow analysis queries into manageable RS sub-queries and generates responses by combining detailed textual explanations with supporting visual evidence from RS. Experimental results on both an in-house and a public OR dataset demonstrate that our ORDiRS achieves a cIoU improvement of 6.12%-9.74% compared to the existing state-of-the-arts.