Surgical Action Planning with Large Language Models
作者: Mengya Xu, Zhongzhen Huang, Jie Zhang, Xiaofan Zhang, Qi Dou
分类: cs.CL
发布日期: 2025-03-24 (更新: 2025-03-31)
备注: 10 pages,4 figures
💡 一句话要点
提出LLM-SAP框架,利用大语言模型进行机器人辅助手术中的动作规划
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 手术动作规划 大型语言模型 机器人辅助手术 术中决策支持 自然语言处理
📋 核心要点
- 现有机器人辅助手术缺乏术中预测规划,限制了智能引导和自动化手术流程的潜力。
- LLM-SAP框架利用大语言模型,通过理解手术目标提示,预测未来动作并生成文本响应,辅助手术决策。
- 在CholecT50-SAP数据集上,Qwen2.5-72B-SFT模型通过监督微调,比Qwen2.5-72B模型准确率提升19.3%。
📝 摘要(中文)
本文介绍了手术动作规划(SAP)任务,旨在从视觉输入生成未来动作计划,以弥补当前智能应用中术中预测规划的不足。SAP在增强术中指导和自动化手术流程方面具有巨大潜力。然而,它面临着理解器械-动作关系和跟踪手术进展等挑战。大型语言模型(LLM)在理解手术视频内容方面显示出前景,但在SAP的预测决策方面仍未得到充分探索,因为它们主要关注回顾性分析。数据隐私、计算需求和模态特定约束等挑战进一步突出了重要的研究空白。为了应对这些挑战,我们引入了LLM-SAP,这是一个基于大型语言模型的手术动作规划框架,它通过解释手术目标的自然语言提示来预测未来动作并生成文本响应。文本响应可能支持手术教育、术中决策、手术记录和技能分析。LLM-SAP集成了两个新颖的模块:用于建模历史状态的近历史焦点记忆模块(NHF-MM)和用于动作规划的提示工厂。我们使用Qwen2.5和Qwen2-VL等模型,在我们构建的CholecT50-SAP数据集上评估LLM-SAP,证明了其在下一步动作预测中的有效性。在零样本设置中测试了预训练的LLM,并实现了使用LoRA的监督微调(SFT)。我们的实验表明,Qwen2.5-72B-SFT的准确率比Qwen2.5-72B高出19.3%。
🔬 方法详解
问题定义:论文旨在解决机器人辅助微创手术中缺乏术中预测性动作规划的问题。现有方法主要集中在回顾性分析,无法根据当前状态预测未来步骤,从而限制了手术自动化和智能引导的潜力。此外,理解手术器械与动作之间的复杂关系,以及准确跟踪手术进展也是现有方法的痛点。
核心思路:论文的核心思路是利用大型语言模型(LLM)的强大理解和生成能力,将手术动作规划问题转化为一个自然语言处理任务。通过自然语言提示(prompt)描述手术目标,LLM预测未来动作并生成相应的文本响应。这种方法能够更好地理解手术上下文,并提供更具解释性的决策支持。
技术框架:LLM-SAP框架包含两个主要模块:近历史焦点记忆模块(NHF-MM)和提示工厂。NHF-MM用于建模历史手术状态,提取关键信息,并将其融入到LLM的输入中。提示工厂负责根据手术目标生成合适的自然语言提示,引导LLM进行动作规划。整个流程是:首先,NHF-MM处理历史视频帧,提取特征;然后,提示工厂生成包含手术目标信息的提示;最后,LLM结合历史特征和提示,预测未来动作并生成文本响应。
关键创新:LLM-SAP的关键创新在于将大型语言模型引入到手术动作规划任务中,并设计了专门的模块(NHF-MM和提示工厂)来适应手术场景的特点。与传统方法相比,LLM-SAP能够更好地理解手术上下文,提供更具解释性的决策支持,并且具有更强的泛化能力。
关键设计:NHF-MM模块的设计考虑了手术过程的时序性,通过注意力机制选择性地关注与当前动作预测相关的历史状态。提示工厂的设计则需要根据不同的手术目标制定合适的提示模板,以引导LLM生成准确的动作计划。实验中使用了Qwen2.5和Qwen2-VL等预训练LLM,并采用LoRA进行监督微调,以提高模型在手术动作规划任务上的性能。
🖼️ 关键图片
📊 实验亮点
实验结果表明,LLM-SAP框架在CholecT50-SAP数据集上取得了显著的性能提升。经过监督微调(SFT)的Qwen2.5-72B模型,其准确率比未经过微调的Qwen2.5-72B模型高出19.3%。这表明LLM-SAP框架能够有效地利用大型语言模型进行手术动作规划,并可以通过微调进一步提高性能。
🎯 应用场景
LLM-SAP框架具有广泛的应用前景,包括:手术教育(通过生成详细的动作解释来辅助学习)、术中决策支持(为医生提供下一步动作的建议)、手术记录(自动生成手术过程文档)和技能分析(评估手术操作的熟练程度)。该研究有望推动机器人辅助手术的智能化发展,提高手术效率和安全性。
📄 摘要(原文)
In robot-assisted minimally invasive surgery, we introduce the Surgical Action Planning (SAP) task, which generates future action plans from visual inputs to address the absence of intraoperative predictive planning in current intelligent applications. SAP shows great potential for enhancing intraoperative guidance and automating procedures. However, it faces challenges such as understanding instrument-action relationships and tracking surgical progress. Large Language Models (LLMs) show promise in understanding surgical video content but remain underexplored for predictive decision-making in SAP, as they focus mainly on retrospective analysis. Challenges like data privacy, computational demands, and modality-specific constraints further highlight significant research gaps. To tackle these challenges, we introduce LLM-SAP, a Large Language Models-based Surgical Action Planning framework that predicts future actions and generates text responses by interpreting natural language prompts of surgical goals. The text responses potentially support surgical education, intraoperative decision-making, procedure documentation, and skill analysis. LLM-SAP integrates two novel modules: the Near-History Focus Memory Module (NHF-MM) for modeling historical states and the prompts factory for action planning. We evaluate LLM-SAP on our constructed CholecT50-SAP dataset using models like Qwen2.5 and Qwen2-VL, demonstrating its effectiveness in next-action prediction. Pre-trained LLMs are tested in a zero-shot setting, and supervised fine-tuning (SFT) with LoRA is implemented. Our experiments show that Qwen2.5-72B-SFT surpasses Qwen2.5-72B with a 19.3% higher accuracy.