EndoChat: Grounded Multimodal Large Language Model for Endoscopic Surgery

作者: Guankun Wang, Long Bai, Junyi Wang, Kun Yuan, Zhen Li, Tianxu Jiang, Xiting He, Jinlin Wu, Zhen Chen, Zhen Lei, Hongbin Liu, Jiazheng Wang, Fan Zhang, Nicolas Padoy, Nassir Navab, Hongliang Ren

分类: cs.CV

发布日期: 2025-01-20 (更新: 2025-03-15)

💡 一句话要点

EndoChat：用于内窥镜手术的具身多模态大型语言模型

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱三：空间感知与语义 (Perception & Semantics) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态大型语言模型 内窥镜手术 手术场景理解 机器人辅助手术 视觉对比推理

📋 核心要点

现有MLLMs在手术场景理解方面存在不足，缺乏针对临床应用的专业模型。
EndoChat通过构建Surg-396K数据集，并引入多尺度视觉token交互和视觉对比推理机制来提升模型性能。
实验表明，EndoChat在多个手术场景理解任务中达到SOTA，并获得外科医生的积极评价。

📝 摘要（中文）

近年来，多模态大型语言模型（MLLMs）在计算机辅助诊断和决策方面展现出巨大的潜力。在机器人辅助手术的背景下，MLLMs可以作为手术训练和指导的有效工具。然而，目前仍然缺乏专门用于临床应用中手术场景理解的MLLMs。本文介绍了EndoChat，旨在解决外科医生遇到的各种对话模式和手术场景理解的子任务。为了训练EndoChat，我们通过一种新颖的流程构建了Surg-396K数据集，该流程系统地提取手术信息并基于收集的大规模内窥镜手术数据集生成结构化注释。此外，我们引入了一种多尺度视觉token交互机制和一种基于视觉对比的推理机制，以增强模型的表征学习和推理能力。我们的模型在五种对话模式和八个手术场景理解任务中取得了最先进的性能。此外，我们还与专业外科医生进行了评估，他们中的大多数人对与EndoChat的协作提供了积极的反馈。总的来说，这些结果表明我们的EndoChat具有极大的潜力，可以显著推进机器人辅助手术的训练和自动化。

🔬 方法详解

问题定义：现有的大型语言模型（LLMs）在通用领域表现出色，但在内窥镜手术场景理解方面存在局限性。缺乏专门针对手术场景训练的MLLMs，无法有效支持手术训练和指导，现有方法难以准确理解手术过程中的复杂视觉信息和外科医生的意图。

核心思路：本文的核心思路是构建一个专门针对内窥镜手术场景的MLLM，即EndoChat。通过大规模手术数据集的训练，以及针对视觉信息处理的优化，使模型能够理解手术场景，并与外科医生进行有效的对话交互，从而辅助手术训练和决策。

技术框架：EndoChat的整体框架包括以下几个主要部分：1) Surg-396K数据集构建：通过系统化的流程从大规模内窥镜手术数据中提取手术信息，并生成结构化注释。2) 多尺度视觉token交互机制：增强模型对不同尺度视觉信息的理解能力。3) 视觉对比推理机制：提升模型基于视觉信息的推理能力。4) MLLM训练：使用Surg-396K数据集对MLLM进行训练，使其具备手术场景理解和对话能力。

关键创新：本文的关键创新在于：1) Surg-396K数据集的构建，为手术场景理解的MLLM训练提供了高质量的数据。2) 多尺度视觉token交互机制和视觉对比推理机制的引入，有效提升了模型对手术场景视觉信息的理解和推理能力。3) 将MLLM应用于内窥镜手术场景理解，并验证了其在手术训练和指导方面的潜力。

关键设计：Surg-396K数据集包含396K个手术图像-文本对，涵盖多种手术类型和场景。多尺度视觉token交互机制通过不同尺度的卷积操作提取视觉特征，并通过注意力机制进行融合。视觉对比推理机制通过对比学习的方式，使模型能够区分不同的手术场景和操作。损失函数包括交叉熵损失和对比损失，用于优化模型的分类和推理能力。具体的网络结构细节和参数设置在论文中有详细描述，但具体数值未知。

🖼️ 关键图片

📊 实验亮点

EndoChat在五种对话模式和八个手术场景理解任务中取得了最先进的性能。与专业外科医生的评估结果表明，他们对与EndoChat的协作持积极态度，认为其在手术训练和指导方面具有很大的潜力。具体的性能提升数据和对比基线在论文中有详细描述，但具体数值未知。

🎯 应用场景

EndoChat具有广泛的应用前景，可用于机器人辅助手术的训练和指导，辅助外科医生进行术前规划和术中决策，提高手术效率和安全性。未来，EndoChat有望集成到手术机器人系统中，实现手术过程的自动化和智能化，从而改善患者的治疗效果。

📄 摘要（原文）

Recently, Multimodal Large Language Models (MLLMs) have demonstrated their immense potential in computer-aided diagnosis and decision-making. In the context of robotic-assisted surgery, MLLMs can serve as effective tools for surgical training and guidance. However, there is still a lack of MLLMs specialized for surgical scene understanding in clinical applications. In this work, we introduce EndoChat to address various dialogue paradigms and subtasks in surgical scene understanding that surgeons encounter. To train our EndoChat, we construct the Surg-396K dataset through a novel pipeline that systematically extracts surgical information and generates structured annotations based on collected large-scale endoscopic surgery datasets. Furthermore, we introduce a multi-scale visual token interaction mechanism and a visual contrast-based reasoning mechanism to enhance the model's representation learning and reasoning capabilities. Our model achieves state-of-the-art performance across five dialogue paradigms and eight surgical scene understanding tasks. Additionally, we conduct evaluations with professional surgeons, most of whom provide positive feedback on collaborating with EndoChat. Overall, these results demonstrate that our EndoChat has great potential to significantly advance training and automation in robotic-assisted surgery.

EndoChat: Grounded Multimodal Large Language Model for Endoscopic Surgery

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理