Scaling Video Pretraining for Surgical Foundation Models

作者: Sicheng Lu, Zikai Xiao, Jianhui Wei, Danyu Sun, Qi Lu, Keli Hu, Yang Feng, Jian Wu, Zongxin Yang, Zuozhu Liu

分类: cs.CV

发布日期: 2026-03-31

💡 一句话要点

SurgRec：可扩展的手术视频预训练模型，用于构建手术领域的基础模型。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 手术视频理解 预训练模型 自监督学习 医学影像分析 Transformer 大规模数据集 可复现性

📋 核心要点

现有的手术基础模型受限于数据规模、程序多样性和评估标准不一致，缺乏可复现的训练流程。
SurgRec通过构建大规模多源手术视频数据集，并设计统一的预训练流程和可复现的评估基准来解决上述问题。
实验表明，SurgRec在多个下游任务上优于现有的SSL基线和视觉-语言模型，为手术视频理解提供了更可靠的基础。

📝 摘要（中文）

本文提出了SurgRec，一种可扩展且可复现的手术视频理解预训练方案，并实例化为SurgRec-MAE和SurgRec-JEPA两个变体。作者构建了一个包含10535个视频和2.145亿帧的大规模多源语料库，涵盖内窥镜、腹腔镜、白内障和机器人手术。在此基础上，开发了一个统一的预训练流程，采用平衡采样，并标准化了一个可复现的基准，包含16个下游数据集和四个临床领域，数据分割保持一致。通过与SSL基线和视觉-语言模型的大量比较，SurgRec在下游数据集上始终表现出卓越的性能。相比之下，VLMs在细粒度的时间识别方面表现出不可靠性，既存在性能差距，又对提示语措辞敏感。这项工作为社区构建更通用的手术视频模型提供了一个可复现、可扩展的基础。所有代码、模型和数据都将公开发布。

🔬 方法详解

问题定义：现有手术视频理解模型面临数据规模有限、手术程序多样性不足以及评估标准不一致等问题。这些问题导致模型泛化能力差，难以适应不同类型的手术场景。此外，缺乏可复现的训练流程也阻碍了研究的进展和模型的广泛应用。

核心思路：SurgRec的核心思路是构建一个大规模、多样化的手术视频数据集，并在此基础上设计一个统一的预训练框架。通过大规模预训练，模型可以学习到通用的手术视频特征表示，从而提升在各种下游任务上的性能。同时，标准化的评估基准保证了结果的可复现性和可比性。

技术框架：SurgRec的整体框架包括数据收集、预训练和下游任务评估三个主要阶段。首先，收集来自不同来源的手术视频，构建大规模数据集。然后，采用统一的预训练流程，包括数据采样、模型训练和验证。最后，在多个下游任务上评估预训练模型的性能，并与现有方法进行比较。SurgRec实例化为两个变体：SurgRec-MAE和SurgRec-JEPA，分别采用掩码自编码器和联合嵌入预测架构。

关键创新：SurgRec的关键创新在于构建了大规模、多源的手术视频数据集，并提出了一个可复现的预训练流程和评估基准。与现有方法相比，SurgRec能够更好地利用大规模数据进行预训练，从而学习到更通用的手术视频特征表示。此外，标准化的评估基准保证了结果的可复现性和可比性，促进了研究的进展。

关键设计：SurgRec的关键设计包括平衡采样策略，以确保不同类型的手术视频在训练过程中得到充分利用。此外，作者还设计了标准化的数据分割方案，以保证下游任务评估的可复现性。预训练模型采用了Transformer架构，并针对手术视频的特点进行了优化。具体的损失函数和网络结构细节在论文中有详细描述。

🖼️ 关键图片

📊 实验亮点

SurgRec在16个下游数据集和四个临床领域上进行了广泛的评估，结果表明SurgRec始终优于SSL基线和视觉-语言模型。尤其是在细粒度时间识别任务上，SurgRec表现出显著的优势，而VLMs则表现出性能差距和对提示语措辞的敏感性。SurgRec的优越性能证明了其在大规模手术视频预训练方面的有效性。

🎯 应用场景

SurgRec在计算机辅助手术干预领域具有广泛的应用前景，例如手术导航、手术机器人控制、手术技能评估和手术视频分析。通过提供更准确、可靠的手术视频理解能力，SurgRec可以帮助医生提高手术效率和安全性，改善患者的治疗效果。未来，SurgRec可以进一步扩展到其他医学影像领域，为医疗诊断和治疗提供更强大的支持。

📄 摘要（原文）

Surgical video understanding is essential for computer-assisted interventions, yet existing surgical foundation models remain constrained by limited data scale, procedural diversity, and inconsistent evaluation, often lacking a reproducible training pipeline. We propose SurgRec, a scalable and reproducible pretraining recipe for surgical video understanding, instantiated with two variants: SurgRec-MAE and SurgRec-JEPA. We curate a large multi-source corpus of 10,535 videos and 214.5M frames spanning endoscopy, laparoscopy, cataract, and robotic surgery. Building on this corpus, we develop a unified pretraining pipeline with balanced sampling and standardize a reproducible benchmark across 16 downstream datasets and four clinical domains with consistent data splits. Across extensive comparisons against SSL baselines and vision-language models, SurgRec consistently achieves superior performance across downstream datasets. In contrast, VLMs prove unreliable for fine-grained temporal recognition, exhibiting both performance gaps and sensitivity to prompt phrasing. Our work provides a reproducible, scalable foundation for the community to build more general surgical video models. All code, models, and data will be publicly released.

Scaling Video Pretraining for Surgical Foundation Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理