Affordance-Based Disambiguation of Surgical Instructions for Collaborative Robot-Assisted Surgery

📄 arXiv: 2509.14967v2 📥 PDF

作者: Ana Davila, Jacinto Colan, Yasuhisa Hasegawa

分类: cs.RO, cs.HC

发布日期: 2025-09-18 (更新: 2025-09-19)

备注: To be presented at the 1st Workshop on Intelligent Cobodied Assistance and Robotic Empowerment (iCARE). 2025 Conference on Robot Learning (CoRL)


💡 一句话要点

提出基于可供性的手术指令消歧框架,用于协作机器人辅助手术

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 机器人辅助手术 人机协作 指令消歧 可供性 多模态学习

📋 核心要点

  1. 口头指令在手术环境中的歧义性阻碍了人机协作的效率和安全性。
  2. 利用可供性概念,结合视觉信息和工具知识库,实现手术指令的准确理解和消歧。
  3. 在胆囊切除术数据集上的实验表明,该框架能够有效消除歧义,提升人机交互安全性。

📝 摘要(中文)

在手术中,有效的人机协作受到口头交流固有歧义的影响。本文提出了一个机器人手术助手框架,通过将外科医生的口头指令与手术视野的视觉环境相结合,来解释和消除指令的歧义。该系统采用基于可供性的双层推理过程,首先使用多模态视觉-语言模型分析手术场景,然后使用工具能力知识库推理指令。为了确保患者安全,使用双集共形预测方法为机器人决策提供统计上严格的置信度度量,使其能够识别和标记有歧义的命令。我们在一个来自胆囊切除术视频的歧义手术请求数据集上评估了我们的框架,展示了60%的总体消歧率,并提出了一种更安全的人机交互方法。

🔬 方法详解

问题定义:手术场景中,外科医生的口头指令常常具有歧义性,例如“切开”,但具体切开哪个组织、使用什么工具并不明确。现有方法难以有效利用视觉信息和工具知识,导致机器人无法准确理解指令意图,存在安全隐患。

核心思路:论文的核心思路是利用“可供性”的概念,将手术场景中的物体、工具与可能的动作联系起来。通过分析视觉信息,识别场景中的物体和工具,并结合工具的固有能力,推断外科医生指令的可能意图,从而消除歧义。这种方法模拟了人类外科医生基于经验和观察进行判断的过程。

技术框架:该框架包含两个主要阶段:1) 基于多模态视觉-语言模型的场景分析:利用视觉信息(手术视频图像)和语言信息(外科医生指令),识别手术场景中的物体和工具。具体实现可能采用预训练的视觉-语言模型,如CLIP,并针对手术场景进行微调。2) 基于知识库的指令推理:构建一个包含手术工具及其能力的知识库。根据场景分析的结果,结合知识库,推断外科医生指令的可能意图。例如,如果场景中存在电刀和胆囊,指令是“切开”,则系统可以推断指令意图是使用电刀切开胆囊。此外,为了保证安全性,系统还使用双集共形预测方法来评估决策的置信度。

关键创新:该论文的关键创新在于将可供性概念引入到机器人辅助手术的指令理解中,并结合多模态视觉-语言模型和知识库,实现手术指令的准确消歧。与传统方法相比,该方法能够更有效地利用视觉信息和工具知识,提高指令理解的准确性和安全性。此外,使用双集共形预测方法来评估决策的置信度,进一步提升了系统的安全性。

关键设计:论文中提到使用了多模态视觉-语言模型,但没有详细说明具体的网络结构和训练细节。双集共形预测方法的具体实现细节也未详细描述,包括如何构建两个集合,以及如何计算置信度。知识库的构建方式和内容也需要进一步了解。这些是未来研究可以深入探索的方向。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

该框架在胆囊切除术视频数据集上进行了评估,实现了60%的总体消歧率。这一结果表明,该方法能够有效消除手术指令的歧义,提高机器人对指令的理解能力。虽然没有提供与现有方法的直接对比,但该结果为进一步研究人机协作手术提供了有价值的参考。

🎯 应用场景

该研究成果可应用于多种机器人辅助手术场景,例如腹腔镜手术、神经外科手术等。通过提高机器人对指令的理解能力,可以减轻外科医生的认知负担,提高手术效率和安全性。未来,该技术有望实现更高级别的人机协作,例如机器人自主执行部分手术步骤,从而推动手术机器人技术的发展。

📄 摘要(原文)

Effective human-robot collaboration in surgery is affected by the inherent ambiguity of verbal communication. This paper presents a framework for a robotic surgical assistant that interprets and disambiguates verbal instructions from a surgeon by grounding them in the visual context of the operating field. The system employs a two-level affordance-based reasoning process that first analyzes the surgical scene using a multimodal vision-language model and then reasons about the instruction using a knowledge base of tool capabilities. To ensure patient safety, a dual-set conformal prediction method is used to provide a statistically rigorous confidence measure for robot decisions, allowing it to identify and flag ambiguous commands. We evaluated our framework on a curated dataset of ambiguous surgical requests from cholecystectomy videos, demonstrating a general disambiguation rate of 60% and presenting a method for safer human-robot interaction in the operating room.