Affordance-Based Disambiguation of Surgical Instructions for Collaborative Robot-Assisted Surgery

📄 arXiv: 2509.14967v2 📥 PDF

作者: Ana Davila, Jacinto Colan, Yasuhisa Hasegawa

分类: cs.RO, cs.HC

发布日期: 2025-09-18 (更新: 2025-09-19)

备注: To be presented at the 1st Workshop on Intelligent Cobodied Assistance and Robotic Empowerment (iCARE). 2025 Conference on Robot Learning (CoRL)


💡 一句话要点

提出基于可供性的手术指令消歧框架,用于协作机器人辅助手术

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 机器人辅助手术 人机协作 指令消歧 可供性 视觉-语言模型

📋 核心要点

  1. 手术中口头指令的歧义性阻碍了人机协作,现有方法难以有效理解外科医生的意图。
  2. 论文提出基于可供性的双层推理框架,结合视觉信息和工具知识,消解手术指令的歧义。
  3. 实验表明,该框架在胆囊切除术视频数据集上实现了60%的指令消歧率,提升了手术安全性。

📝 摘要(中文)

在手术中,有效的人机协作受到口头交流固有歧义的影响。本文提出了一个机器人手术助手框架,通过将外科医生的口头指令与手术视野的视觉环境相结合,来解释和消除指令的歧义。该系统采用基于可供性的双层推理过程,首先使用多模态视觉-语言模型分析手术场景,然后使用工具能力知识库推理指令。为了确保患者安全,使用双集共形预测方法为机器人决策提供统计上严格的置信度度量,使其能够识别和标记有歧义的命令。我们在一个来自胆囊切除术视频的歧义手术请求数据集上评估了我们的框架,展示了60%的总体消歧率,并提出了一种更安全的人机交互方法。

🔬 方法详解

问题定义:论文旨在解决机器人辅助手术中,外科医生口头指令的歧义性问题。现有的方法通常依赖于预定义的指令集或简单的语音识别,无法有效处理自然语言的复杂性和上下文依赖性,导致机器人难以准确理解外科医生的意图,从而影响手术效率和安全性。

核心思路:论文的核心思路是将外科医生的口头指令与手术场景的视觉信息相结合,利用“可供性”的概念来推断指令的含义。可供性是指环境或物体为行动者提供的可能性。通过分析手术场景中工具、组织等的可供性,机器人可以更好地理解外科医生的意图,从而消除指令的歧义。

技术框架:该框架包含两个主要阶段:1) 基于多模态视觉-语言模型的场景分析;2) 基于工具能力知识库的指令推理。首先,使用视觉-语言模型分析手术场景,识别工具、组织等物体,并提取相关的视觉特征。然后,将提取的视觉特征与外科医生的口头指令相结合,利用工具能力知识库推理指令的含义。知识库包含每个工具的功能和使用方式等信息。最后,使用双集共形预测方法评估机器人决策的置信度,并标记有歧义的命令。

关键创新:该论文的关键创新在于将可供性概念引入到机器人辅助手术的指令理解中。通过结合视觉信息和工具知识,机器人可以更准确地理解外科医生的意图,从而消除指令的歧义。此外,使用双集共形预测方法评估机器人决策的置信度,可以有效提高手术的安全性。

关键设计:论文中使用了预训练的多模态视觉-语言模型来提取视觉特征。工具能力知识库是手动构建的,包含了每个工具的功能和使用方式等信息。双集共形预测方法使用两个独立的训练集来估计预测的置信度。具体的网络结构和损失函数等技术细节在论文中没有详细描述,属于未知信息。

📊 实验亮点

实验结果表明,该框架在胆囊切除术视频数据集上实现了60%的指令消歧率。该结果表明,结合视觉信息和工具知识可以有效提高机器人对指令的理解能力。虽然没有明确的基线对比,但60%的消歧率表明该方法具有一定的实用价值。

🎯 应用场景

该研究成果可应用于多种机器人辅助手术场景,例如腹腔镜手术、神经外科手术等。通过提高机器人对指令的理解能力,可以减轻外科医生的认知负担,提高手术效率和安全性。未来,该技术有望实现更高级别的人机协作,例如机器人自主执行部分手术步骤。

📄 摘要(原文)

Effective human-robot collaboration in surgery is affected by the inherent ambiguity of verbal communication. This paper presents a framework for a robotic surgical assistant that interprets and disambiguates verbal instructions from a surgeon by grounding them in the visual context of the operating field. The system employs a two-level affordance-based reasoning process that first analyzes the surgical scene using a multimodal vision-language model and then reasons about the instruction using a knowledge base of tool capabilities. To ensure patient safety, a dual-set conformal prediction method is used to provide a statistically rigorous confidence measure for robot decisions, allowing it to identify and flag ambiguous commands. We evaluated our framework on a curated dataset of ambiguous surgical requests from cholecystectomy videos, demonstrating a general disambiguation rate of 60% and presenting a method for safer human-robot interaction in the operating room.