Distilling Expert Surgical Knowledge: How to train local surgical VLMs for anatomy explanation in Complete Mesocolic Excision
作者: Lennart Maack, Julia-Kristin Graß, Lisa-Marie Toscha, Nathaniel Melling, Alexander Schlaefer
分类: cs.CV
发布日期: 2025-12-05
💡 一句话要点
提出一种隐私保护的知识蒸馏框架,用于训练局部手术VLM以解释完全结肠系膜切除术中的解剖结构。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉语言模型 知识蒸馏 手术场景理解 隐私保护 完全结肠系膜切除术
📋 核心要点
- 现有VLM在特定手术场景理解方面存在不足,尤其是在识别和解释解剖标志方面。
- 利用大型LLM的知识,通过知识蒸馏的方式训练局部VLM,同时保护患者数据隐私。
- 通过专家监督数据集进行微调和偏好优化,显著提升了VLM在手术领域的知识水平。
📝 摘要(中文)
本文提出了一种隐私保护框架,用于将大型通用语言模型(LLM)的知识提炼到高效的局部视觉语言模型(VLM)中,以解决当前VLM在特定领域(如完全结肠系膜切除术中识别和解释解剖标志)的手术场景理解方面的不足。该框架通过提示教师LLM生成专家监督数据集,该过程仅使用文本上下文和二元分割掩码,避免了敏感图像的使用。然后,使用该数据集对局部部署的VLM进行监督微调(SFT)和直接偏好优化(DPO)。评估结果表明,与基础VLM相比,使用生成的数据集微调VLM可以显著提高手术领域知识。这项工作验证了一种数据高效且符合隐私的方式来训练手术领域优化的、局部可部署的VLM,用于手术场景理解。
🔬 方法详解
问题定义:论文旨在解决手术场景下,通用视觉语言模型(VLM)对手术解剖结构理解不足的问题,尤其是在完全结肠系膜切除术(Complete Mesocolic Excision)中识别和解释关键解剖标志。现有方法依赖大型VLM,存在患者数据泄露的风险,且领域知识不足,无法满足手术场景的专业需求。
核心思路:核心思路是通过知识蒸馏,将大型通用LLM的知识迁移到局部部署的VLM中。利用LLM的强大语言能力,生成包含手术解剖结构信息的专家监督数据集,避免直接使用敏感的患者图像数据。这种方法既能提升局部VLM的领域知识,又能保护患者隐私。
技术框架:整体框架包含以下几个阶段:1) 利用文本上下文和二元分割掩码,提示大型LLM(教师模型)生成专家监督数据集;2) 使用生成的数据集对局部VLM(学生模型)进行监督微调(SFT);3) 对微调后的VLM进行直接偏好优化(DPO),进一步提升其性能。整个流程旨在构建一个隐私保护、领域优化的局部VLM。
关键创新:关键创新在于利用LLM生成专家监督数据集,避免直接使用患者图像数据,从而实现了隐私保护的知识蒸馏。此外,结合监督微调和直接偏好优化,进一步提升了局部VLM在手术领域的知识水平和性能。
关键设计:论文的关键设计包括:1) 使用文本上下文和二元分割掩码作为LLM的输入,以生成包含空间信息的解剖结构描述;2) 采用监督微调(SFT)和直接偏好优化(DPO)相结合的训练策略,以提升VLM的性能;3) 针对手术场景的特点,设计了特定的评估指标,以衡量VLM在解剖结构理解方面的能力。
🖼️ 关键图片
📊 实验亮点
该研究通过知识蒸馏,显著提升了局部VLM在手术领域的知识水平。实验结果表明,使用生成的数据集微调VLM后,其在手术场景理解方面的性能得到了大幅提升,证明了该方法在数据效率和隐私保护方面的有效性。具体的性能提升数据在论文中给出。
🎯 应用场景
该研究成果可应用于计算机辅助手术诊断和决策支持系统,帮助外科医生更好地理解手术场景,提高手术精度和安全性。通过本地部署VLM,可以避免患者数据泄露,保护患者隐私。未来,该方法可推广到其他医学影像分析领域,为临床医生提供更智能化的辅助工具。
📄 摘要(原文)
Recently, Vision Large Language Models (VLMs) have demonstrated high potential in computer-aided diagnosis and decision-support. However, current VLMs show deficits in domain specific surgical scene understanding, such as identifying and explaining anatomical landmarks during Complete Mesocolic Excision. Additionally, there is a need for locally deployable models to avoid patient data leakage to large VLMs, hosted outside the clinic. We propose a privacy-preserving framework to distill knowledge from large, general-purpose LLMs into an efficient, local VLM. We generate an expert-supervised dataset by prompting a teacher LLM without sensitive images, using only textual context and binary segmentation masks for spatial information. This dataset is used for Supervised Fine-Tuning (SFT) and subsequent Direct Preference Optimization (DPO) of the locally deployable VLM. Our evaluation confirms that finetuning VLMs with our generated datasets increases surgical domain knowledge compared to its base VLM by a large margin. Overall, this work validates a data-efficient and privacy-conforming way to train a surgical domain optimized, locally deployable VLM for surgical scene understanding.