SurgRAW: Multi-Agent Workflow with Chain-of-Thought Reasoning for Surgical Intelligence

📄 arXiv: 2503.10265v1 📥 PDF

作者: Chang Han Low, Ziyue Wang, Tianyi Zhang, Zhitao Zeng, Zhu Zhuo, Evangelos B. Mazomenos, Yueming Jin

分类: cs.AI, cs.RO

发布日期: 2025-03-13


💡 一句话要点

SurgRAW:基于CoT多智能体工作流,提升手术智能任务性能

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 手术智能 视觉-语言模型 思维链 多智能体系统 机器人辅助手术 检索增强生成 医学知识库

📋 核心要点

  1. 现有VLM在手术智能应用中存在幻觉、缺乏领域知识和任务依赖理解,导致临床可靠性不足。
  2. SurgRAW利用CoT驱动的多智能体框架,结合RAG和分层智能体系统,实现透明、可解释的手术任务洞察。
  3. SurgRAW在SurgCoTBench数据集上,相比基线VLM,准确率提升29.32%,达到SOTA性能。

📝 摘要(中文)

在手术智能中集成视觉-语言模型(VLM)面临幻觉、领域知识不足以及对手术场景中任务间依赖关系理解有限等问题,从而降低了临床可靠性。尽管最近的VLM展现出强大的通用推理能力,但它们仍然缺乏精确手术场景理解所需的领域专业知识和任务感知能力。思维链(CoT)可以更有效地构建推理过程,但当前方法依赖于自我生成的CoT步骤,这通常会加剧固有的领域差距和幻觉。为了解决这个问题,我们提出了SurgRAW,一个CoT驱动的多智能体框架,为机器人辅助手术中的大多数任务提供透明、可解释的见解。通过在五个任务(器械识别、动作识别、动作预测、患者数据提取和结果评估)中使用专门的CoT提示,SurgRAW通过结构化的、领域感知的推理来减轻幻觉。检索增强生成(RAG)也被集成到外部医学知识中,以弥合领域差距并提高响应可靠性。最重要的是,一个分层智能体系统确保了嵌入CoT的VLM智能体能够有效地协作,同时理解任务间的依赖关系,并通过小组讨论机制来促进逻辑一致性。为了评估我们的方法,我们引入了SurgCoTBench,这是第一个具有结构化帧级注释的基于推理的数据集。通过全面的实验,我们证明了所提出的SurgRAW的有效性,在12个机器人手术程序上,相比基线VLM,准确率提高了29.32%,实现了最先进的性能,并推进了解释性强、值得信赖和自主的手术辅助。

🔬 方法详解

问题定义:现有视觉-语言模型(VLM)在手术智能领域的应用受限于三个主要问题:一是VLM容易产生幻觉,输出不准确或不存在的信息;二是VLM缺乏足够的医学领域知识,难以理解复杂的手术场景;三是VLM难以理解手术任务之间的依赖关系,无法进行有效的推理和预测。这些问题导致VLM在手术辅助应用中的可靠性降低。

核心思路:SurgRAW的核心思路是利用思维链(CoT)来引导VLM进行结构化的推理,并通过多智能体协作和检索增强生成(RAG)来弥补领域知识的不足,从而减少幻觉并提高任务完成的准确性。通过将复杂的手术任务分解为多个子任务,并让不同的智能体负责不同的子任务,可以更好地利用VLM的推理能力,并提高整体系统的性能。

技术框架:SurgRAW采用分层智能体系统,包含多个CoT-embedded VLM智能体,分别负责器械识别、动作识别、动作预测、患者数据提取和结果评估等任务。每个智能体使用专门的CoT提示进行推理,并通过RAG从外部医学知识库中检索相关信息。智能体之间通过小组讨论机制进行协作,以确保逻辑一致性。整体流程包括:输入手术视频帧,各智能体并行执行任务,通过小组讨论整合结果,最终输出手术场景的理解和预测。

关键创新:SurgRAW的关键创新在于:1) 提出了一个CoT驱动的多智能体框架,能够有效地利用VLM的推理能力;2) 集成了RAG,弥补了VLM在医学领域知识方面的不足;3) 引入了小组讨论机制,确保了智能体之间的协作和逻辑一致性;4) 构建了SurgCoTBench数据集,为基于推理的手术智能研究提供了基准。

关键设计:SurgRAW的关键设计包括:1) 针对不同任务设计的专门CoT提示,引导VLM进行结构化推理;2) RAG模块,用于从外部医学知识库中检索相关信息,提高VLM的领域知识;3) 小组讨论机制,通过多个智能体的讨论和投票,确保结果的逻辑一致性;4) 分层智能体系统,将复杂的手术任务分解为多个子任务,提高整体系统的效率和准确性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SurgRAW在SurgCoTBench数据集上进行了全面的实验评估,结果表明,相比基线VLM,SurgRAW在12个机器人手术程序上的平均准确率提高了29.32%,达到了最先进的性能。实验结果证明了SurgRAW在手术智能任务中的有效性,并验证了CoT驱动的多智能体框架、RAG和小组讨论机制的优势。

🎯 应用场景

SurgRAW具有广泛的应用前景,可用于机器人辅助手术的智能化,例如术中导航、手术技能评估、手术风险预测等。该研究有助于提高手术的安全性、效率和准确性,并为医生提供更可靠的决策支持。未来,SurgRAW可以扩展到其他医疗领域,例如疾病诊断、药物研发等,为医疗智能化做出更大的贡献。

📄 摘要(原文)

Integration of Vision-Language Models (VLMs) in surgical intelligence is hindered by hallucinations, domain knowledge gaps, and limited understanding of task interdependencies within surgical scenes, undermining clinical reliability. While recent VLMs demonstrate strong general reasoning and thinking capabilities, they still lack the domain expertise and task-awareness required for precise surgical scene interpretation. Although Chain-of-Thought (CoT) can structure reasoning more effectively, current approaches rely on self-generated CoT steps, which often exacerbate inherent domain gaps and hallucinations. To overcome this, we present SurgRAW, a CoT-driven multi-agent framework that delivers transparent, interpretable insights for most tasks in robotic-assisted surgery. By employing specialized CoT prompts across five tasks: instrument recognition, action recognition, action prediction, patient data extraction, and outcome assessment, SurgRAW mitigates hallucinations through structured, domain-aware reasoning. Retrieval-Augmented Generation (RAG) is also integrated to external medical knowledge to bridge domain gaps and improve response reliability. Most importantly, a hierarchical agentic system ensures that CoT-embedded VLM agents collaborate effectively while understanding task interdependencies, with a panel discussion mechanism promotes logical consistency. To evaluate our method, we introduce SurgCoTBench, the first reasoning-based dataset with structured frame-level annotations. With comprehensive experiments, we demonstrate the effectiveness of proposed SurgRAW with 29.32% accuracy improvement over baseline VLMs on 12 robotic procedures, achieving the state-of-the-art performance and advancing explainable, trustworthy, and autonomous surgical assistance.