Generalized Recognition of Basic Surgical Actions Enables Skill Assessment and Vision-Language-Model-based Surgical Planning

作者: Mengya Xu, Daiyun Shen, Jie Zhang, Hon Chi Yip, Yujia Gao, Cheng Chen, Dillan Imans, Yonghao Long, Yiru Ye, Yixiao Liu, Rongyun Mai, Kai Chen, Hongliang Ren, Yutong Ban, Guangsuo Wang, Francis Wong, Chi-Fai Ng, Kee Yuan Ngiam, Russell H. Taylor, Daguang Xu, Yueming Jin, Qi Dou

分类: cs.CV

发布日期: 2026-03-13

备注: 34 pages, 8 figures

💡 一句话要点

构建通用手术动作识别模型，促进技能评估与基于视觉-语言模型的手术规划

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 手术动作识别 基础模型 多专科数据集 技能评估 视觉-语言模型

📋 核心要点

现有手术动作理解方法缺乏通用性，难以适应不同专科和手术类型，限制了其在手术技能评估和规划中的应用。
论文构建了大规模多专科手术动作数据集，并提出基于基础模型的通用识别方法，旨在提升模型在不同场景下的泛化能力。
实验验证了该方法在跨专科手术动作识别上的有效性，并展示了其在手术技能评估和基于视觉-语言模型的手术规划中的应用。

📝 摘要（中文）

本文提出了一个包含超过11000个视频片段的BSA数据集，涵盖6个外科专业的10个基本手术动作，是迄今为止最大的此类数据集。基于此，开发了一个新的基础模型，用于通用基本动作识别。实验表明，该方法在不同手术类型和身体部位的数据集上表现出强大的跨专业性能。此外，通过在根治性前列腺切除术中使用领域知识进行手术技能评估，以及在胆囊切除术和肾切除术中使用大型视觉-语言模型进行动作规划，展示了BSA基础模型支持的下游应用。多国外科医生对语言模型输出的动作规划可解释文本的评估表明其具有临床相关性。这些发现表明，基本手术动作可以在各种场景中被稳健地识别，并且准确的BSA理解模型可以有效地促进复杂应用并加速手术超智能的实现。

🔬 方法详解

问题定义：现有手术动作识别方法通常针对特定手术或专科设计，缺乏通用性，难以迁移到新的手术场景。这限制了其在手术技能评估、手术机器人控制和手术规划等领域的应用。因此，需要一种能够识别各种基本手术动作，并具有良好泛化能力的通用模型。

核心思路：论文的核心思路是构建一个大规模、多专科的手术动作数据集，并在此基础上训练一个基础模型，使其能够学习到通用的手术动作特征表示。通过这种方式，模型可以更好地适应不同的手术类型和专科，从而实现更准确和鲁棒的动作识别。

技术框架：该方法主要包含两个阶段：数据收集与标注和模型训练与评估。首先，收集来自不同手术专科的视频数据，并标注其中的基本手术动作。然后，使用这些数据训练一个深度学习模型，使其能够识别不同的手术动作。最后，在不同的数据集上评估模型的性能，并将其应用于手术技能评估和手术规划等下游任务。

关键创新：该论文的关键创新在于构建了一个大规模、多专科的手术动作数据集，并提出了一个基于基础模型的通用手术动作识别方法。与以往的方法相比，该方法具有更强的泛化能力，可以更好地适应不同的手术场景。

关键设计：论文中使用了Transformer架构作为基础模型，并采用了对比学习的方法来训练模型。此外，还设计了一种新的损失函数，以提高模型在不同手术动作之间的区分能力。具体参数设置和网络结构细节在论文中有详细描述。

📊 实验亮点

实验结果表明，该方法在跨专科手术动作识别任务上取得了显著的性能提升，优于现有的方法。此外，该方法在手术技能评估和基于视觉-语言模型的手术规划等下游任务中也表现出良好的性能，验证了其在实际应用中的潜力。多国外科医生对语言模型输出的动作规划可解释文本的评估表明其具有临床相关性。

🎯 应用场景

该研究成果可应用于手术技能评估，为外科医生提供客观的反馈和指导；可用于手术机器人控制，提高手术的精度和效率；还可用于手术规划，帮助医生制定更合理的手术方案。此外，该研究为开发更智能化的手术辅助系统奠定了基础，有望推动手术领域的智能化发展。

📄 摘要（原文）

Artificial intelligence, imaging, and large language models have the potential to transform surgical practice, training, and automation. Understanding and modeling of basic surgical actions (BSA), the fundamental unit of operation in any surgery, is important to drive the evolution of this field. In this paper, we present a BSA dataset comprising 10 basic actions across 6 surgical specialties with over 11,000 video clips, which is the largest to date. Based on the BSA dataset, we developed a new foundation model that conducts general-purpose recognition of basic actions. Our approach demonstrates robust cross-specialist performance in experiments validated on datasets from different procedural types and various body parts. Furthermore, we demonstrate downstream applications enabled by the BAS foundation model through surgical skill assessment in prostatectomy using domain-specific knowledge, and action planning in cholecystectomy and nephrectomy using large vision-language models. Multinational surgeons' evaluation of the language model's output of the action planning explainable texts demonstrated clinical relevance. These findings indicate that basic surgical actions can be robustly recognized across scenarios, and an accurate BSA understanding model can essentially facilitate complex applications and speed up the realization of surgical superintelligence.

Generalized Recognition of Basic Surgical Actions Enables Skill Assessment and Vision-Language-Model-based Surgical Planning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理