Scaling Video Pretraining for Surgical Foundation Models
作者: Sicheng Lu, Zikai Xiao, Jianhui Wei, Danyu Sun, Qi Lu, Keli Hu, Yang Feng, Jian Wu, Zongxin Yang, Zuozhu Liu
分类: cs.CV
发布日期: 2026-03-31
💡 一句话要点
SurgRec:可扩展的手术视频预训练模型,用于构建手术领域的基础模型。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 手术视频理解 预训练模型 自监督学习 医学影像分析 Transformer 大规模数据集 可复现性
📋 核心要点
- 现有的手术基础模型受限于数据规模、程序多样性和评估标准不一致,缺乏可复现的训练流程。
- SurgRec通过构建大规模多源手术视频数据集,并设计统一的预训练流程和可复现的评估基准来解决上述问题。
- 实验表明,SurgRec在多个下游任务上优于现有的SSL基线和视觉-语言模型,为手术视频理解提供了更可靠的基础。
📝 摘要(中文)
本文提出了SurgRec,一种可扩展且可复现的手术视频理解预训练方案,并实例化为SurgRec-MAE和SurgRec-JEPA两个变体。作者构建了一个包含10535个视频和2.145亿帧的大规模多源语料库,涵盖内窥镜、腹腔镜、白内障和机器人手术。在此基础上,开发了一个统一的预训练流程,采用平衡采样,并标准化了一个可复现的基准,包含16个下游数据集和四个临床领域,数据分割保持一致。通过与SSL基线和视觉-语言模型的大量比较,SurgRec在下游数据集上始终表现出卓越的性能。相比之下,VLMs在细粒度的时间识别方面表现出不可靠性,既存在性能差距,又对提示语措辞敏感。这项工作为社区构建更通用的手术视频模型提供了一个可复现、可扩展的基础。所有代码、模型和数据都将公开发布。
🔬 方法详解
问题定义:现有手术视频理解模型面临数据规模有限、手术程序多样性不足以及评估标准不一致等问题。这些问题导致模型泛化能力差,难以适应不同类型的手术场景。此外,缺乏可复现的训练流程也阻碍了研究的进展和模型的广泛应用。
核心思路:SurgRec的核心思路是构建一个大规模、多样化的手术视频数据集,并在此基础上设计一个统一的预训练框架。通过大规模预训练,模型可以学习到通用的手术视频特征表示,从而提升在各种下游任务上的性能。同时,标准化的评估基准保证了结果的可复现性和可比性。
技术框架:SurgRec的整体框架包括数据收集、预训练和下游任务评估三个主要阶段。首先,收集来自不同来源的手术视频,构建大规模数据集。然后,采用统一的预训练流程,包括数据采样、模型训练和验证。最后,在多个下游任务上评估预训练模型的性能,并与现有方法进行比较。SurgRec实例化为两个变体:SurgRec-MAE和SurgRec-JEPA,分别采用掩码自编码器和联合嵌入预测架构。
关键创新:SurgRec的关键创新在于构建了大规模、多源的手术视频数据集,并提出了一个可复现的预训练流程和评估基准。与现有方法相比,SurgRec能够更好地利用大规模数据进行预训练,从而学习到更通用的手术视频特征表示。此外,标准化的评估基准保证了结果的可复现性和可比性,促进了研究的进展。
关键设计:SurgRec的关键设计包括平衡采样策略,以确保不同类型的手术视频在训练过程中得到充分利用。此外,作者还设计了标准化的数据分割方案,以保证下游任务评估的可复现性。预训练模型采用了Transformer架构,并针对手术视频的特点进行了优化。具体的损失函数和网络结构细节在论文中有详细描述。
🖼️ 关键图片
📊 实验亮点
SurgRec在16个下游数据集和四个临床领域上进行了广泛的评估,结果表明SurgRec始终优于SSL基线和视觉-语言模型。尤其是在细粒度时间识别任务上,SurgRec表现出显著的优势,而VLMs则表现出性能差距和对提示语措辞的敏感性。SurgRec的优越性能证明了其在大规模手术视频预训练方面的有效性。
🎯 应用场景
SurgRec在计算机辅助手术干预领域具有广泛的应用前景,例如手术导航、手术机器人控制、手术技能评估和手术视频分析。通过提供更准确、可靠的手术视频理解能力,SurgRec可以帮助医生提高手术效率和安全性,改善患者的治疗效果。未来,SurgRec可以进一步扩展到其他医学影像领域,为医疗诊断和治疗提供更强大的支持。
📄 摘要(原文)
Surgical video understanding is essential for computer-assisted interventions, yet existing surgical foundation models remain constrained by limited data scale, procedural diversity, and inconsistent evaluation, often lacking a reproducible training pipeline. We propose SurgRec, a scalable and reproducible pretraining recipe for surgical video understanding, instantiated with two variants: SurgRec-MAE and SurgRec-JEPA. We curate a large multi-source corpus of 10,535 videos and 214.5M frames spanning endoscopy, laparoscopy, cataract, and robotic surgery. Building on this corpus, we develop a unified pretraining pipeline with balanced sampling and standardize a reproducible benchmark across 16 downstream datasets and four clinical domains with consistent data splits. Across extensive comparisons against SSL baselines and vision-language models, SurgRec consistently achieves superior performance across downstream datasets. In contrast, VLMs prove unreliable for fine-grained temporal recognition, exhibiting both performance gaps and sensitivity to prompt phrasing. Our work provides a reproducible, scalable foundation for the community to build more general surgical video models. All code, models, and data will be publicly released.