SurgCoT: Advancing Spatiotemporal Reasoning in Surgical Videos through a Chain-of-Thought Benchmark

作者: Gui Wang, YongSong Zhou, Kaijun Deng, Wooi Ping Cheah, Rong Qu, Jianfeng Ren, Linlin Shen

分类: cs.CV

发布日期: 2026-04-22

备注: Accept by CVPR2026

🔗 代码/项目: GITHUB

💡 一句话要点

SurgCoT：构建手术视频时空推理链式思考基准，提升多模态大语言模型性能

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics) 支柱八：物理动画 (Physics-based Animation) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 手术视频理解 时空推理 链式思考 多模态大语言模型 基准数据集

📋 核心要点

多模态大语言模型在手术视频细粒度时空推理方面能力不足，缺乏系统性评估。
SurgCoT通过构建包含丰富知识和线索的链式思考基准，促进模型学习手术场景下的推理。
实验表明，现有MLLM在SurgCoT上表现出显著差距，SurgCoT能够有效评估和提升模型性能。

📝 摘要（中文）

本文提出了SurgCoT，一个统一的基准，用于评估多模态大语言模型（MLLM）在手术视频中链式思考（CoT）推理的能力。SurgCoT涵盖7个外科专业和35个不同的手术程序，评估五个核心推理维度：因果行动排序、线索-行动对齐、可供性映射、微观转换定位和异常起始跟踪。该基准采用结构化的CoT框架，包含Question-Option-Knowledge-Clue-Answer的密集标注协议，其中Knowledge提供必要的背景知识，Clue提供明确的时空证据。对10个领先的MLLM的评估表明：商业模型优于开源和医学专用模型；手术CoT推理方面存在显著差距；SurgCoT能够有效评估并增强渐进式时空推理。SurgCoT提供了一个可复现的测试平台，以缩小MLLM能力与临床推理需求之间的差距。代码已开源。

🔬 方法详解

问题定义：现有方法在手术视频理解中，缺乏对细粒度时空推理能力的有效评估。多模态大语言模型（MLLM）在理解手术视频中的因果关系、动作顺序、异常检测等方面仍存在挑战，难以满足临床推理的需求。现有基准数据集难以全面评估模型在手术场景下的链式思考能力。

核心思路：SurgCoT的核心思路是构建一个结构化的链式思考（CoT）基准，通过提供背景知识和时空线索，引导模型进行逐步推理。这种方法旨在模拟医生在手术过程中的思考方式，从而更准确地评估和提升模型在手术视频理解方面的能力。

技术框架：SurgCoT的整体框架包含以下几个关键组成部分：1) 数据收集与标注：收集涵盖多个外科专业和手术程序的视频数据，并进行密集标注。2) CoT结构设计：采用Question-Option-Knowledge-Clue-Answer的结构，其中Knowledge提供背景知识，Clue提供时空证据。3) 评估指标：设计针对五个核心推理维度的评估指标，包括因果行动排序、线索-行动对齐、可供性映射、微观转换定位和异常起始跟踪。4) 模型评估与分析：使用SurgCoT评估现有MLLM的性能，并分析其在不同推理维度上的表现。

关键创新：SurgCoT的关键创新在于其结构化的链式思考框架和密集标注协议。与传统的视频理解基准相比，SurgCoT不仅提供问题和答案，还提供背景知识和时空线索，从而更有效地引导模型进行推理。此外，SurgCoT涵盖多个外科专业和手术程序，具有更广泛的适用性。

关键设计：SurgCoT的关键设计包括：1) Knowledge字段：提供与手术步骤、器械使用等相关的背景知识，帮助模型理解手术过程。2) Clue字段：提供明确的时空证据，例如特定时间点的图像或视频片段，帮助模型定位关键事件。3) 评估指标：针对每个推理维度设计具体的评估指标，例如使用准确率评估因果行动排序的正确性。

🖼️ 关键图片

📊 实验亮点

SurgCoT对10个领先的MLLM进行了评估，结果表明商业模型优于开源和医学专用模型。实验还发现，现有MLLM在手术CoT推理方面存在显著差距，表明该领域仍有很大的提升空间。SurgCoT能够有效评估并增强渐进式时空推理，为未来的研究提供了有价值的基准。

🎯 应用场景

SurgCoT的研究成果可应用于开发智能手术辅助系统，例如术中导航、手术风险预警和术后评估。通过提升MLLM在手术视频理解方面的能力，可以帮助医生更准确地进行手术操作，降低手术风险，提高手术成功率。未来，该研究还可扩展到其他医疗领域，例如医学影像分析和疾病诊断。

📄 摘要（原文）

Fine-grained spatiotemporal reasoning on surgical videos is critical, yet the capabilities of Multi-modal Large Language Models (MLLMs) in this domain remain largely unexplored. To bridge this gap, we introduce SurgCoT, a unified benchmark for evaluating chain-of-thought (CoT) reasoning in MLLMs across 7 surgical specialties and 35 diverse procedures. SurgCoT assesses five core reasoning dimensions: Causal Action Ordering, Cue-Action Alignment, Affordance Mapping, Micro-Transition Localization, and Anomaly Onset Tracking, through a structured CoT framework with an intensive annotation protocol (Question-Option-Knowledge-Clue-Answer), where the Knowledge field provides essential background context and Clue provides definitive spatiotemporal evidence. Evaluation of 10 leading MLLMs shows: 1) commercial models outperform open-source and medical-specialized variants; 2) significant gaps exist in surgical CoT reasoning; 3) SurgCoT enables effective evaluation and enhances progressive spatiotemporal reasoning. SurgCoT provides a reproducible testbed to narrow the gap between MLLM capabilities and clinical reasoning demands. Code: https://github.com/CVI-SZU/SurgCoT.

SurgCoT: Advancing Spatiotemporal Reasoning in Surgical Videos through a Chain-of-Thought Benchmark

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理