$\mathsf{CSMAE~}$:~Cataract Surgical Masked Autoencoder (MAE) based Pre-training

📄 arXiv: 2502.08822v1 📥 PDF

作者: Nisarg A. Shah, Wele Gedara Chaminda Bandara, Shameema Skider, S. Swaroop Vedula, Vishal M. Patel

分类: cs.CV

发布日期: 2025-02-12

备注: 5 pages, Accepted to IEEE International Symposium on Biomedical Imaging (ISBI 2025)


💡 一句话要点

提出CSMAE,一种基于掩码自编码器(MAE)的白内障手术视频预训练方法

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱八:物理动画 (Physics-based Animation)

关键词: 手术视频分析 掩码自编码器 自监督学习 预训练 白内障手术

📋 核心要点

  1. 手术视频自动分析对于改善手术培训、优化工作流程和术后评估至关重要,但现有方法在数据利用率和泛化性方面存在挑战。
  2. CSMAE的核心思想是基于tokens的时空重要性进行掩码,而非随机掩码,从而使模型更关注手术视频中的关键信息。
  3. 在白内障手术视频步骤识别任务中,CSMAE在D99和Cataract-101数据集上显著优于现有自监督预训练和迁移学习方法。

📝 摘要(中文)

本文提出了一种名为CSMAE的掩码自编码器(MAE)预训练方法,专门用于白内障手术视频分析。与随机选择tokens进行掩码不同,CSMAE根据tokens的时空重要性进行选择。作者创建了一个大型白内障手术视频数据集,以提高模型的学习效率和在低数据情况下的鲁棒性。预训练模型可以通过微调轻松地适应特定的下游任务,作为进一步分析的强大骨干网络。在两个白内障手术视频数据集D99和Cataract-101上的下游步骤识别任务中,CSMAE超越了当前最先进的自监督预训练和基于适配器的迁移学习方法,显著提升了性能。该研究展示了基于MAE的预训练在手术视频分析领域的潜力,并为未来的研究设定了新的基准。

🔬 方法详解

问题定义:现有手术视频分析方法通常依赖大量标注数据,且泛化能力有限。自监督学习方法虽然可以利用无标注数据,但随机掩码策略可能忽略了视频中的关键信息,导致预训练效果不佳。因此,如何更有效地利用手术视频数据进行预训练,提升模型在下游任务中的性能,是本文要解决的核心问题。

核心思路:CSMAE的核心思路是根据tokens的时空重要性进行掩码。作者认为,手术视频中不同区域和时间点的重要性不同,应该优先掩码不重要的tokens,让模型学习重建重要的tokens,从而更好地理解手术过程。这种策略能够使模型更关注手术的关键步骤和操作。

技术框架:CSMAE的整体框架基于掩码自编码器(MAE)。首先,将手术视频帧分割成tokens。然后,根据tokens的时空重要性选择一部分tokens进行掩码。接下来,编码器处理未被掩码的tokens,生成潜在表示。最后,解码器利用潜在表示重建被掩码的tokens。通过最小化重建误差,模型学习到手术视频的内在结构和关键特征。

关键创新:CSMAE最重要的创新点在于提出了基于时空重要性的掩码策略。与传统的随机掩码相比,CSMAE能够更有效地利用手术视频数据,使模型更关注手术的关键信息。这种策略能够显著提升预训练模型的性能,并使其在下游任务中表现更好。

关键设计:CSMAE的关键设计包括:1) 时空重要性评估方法:具体如何评估tokens的时空重要性,论文中可能使用了例如光流、显著性检测等方法,但具体细节未知。2) 掩码比例:选择多少比例的tokens进行掩码,需要在实验中进行调整。3) 损失函数:使用重建误差作为损失函数,衡量模型重建被掩码tokens的能力。4) 网络结构:编码器和解码器的具体网络结构,例如Transformer等。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

CSMAE在D99和Cataract-101两个白内障手术视频数据集上进行了步骤识别任务的评估。实验结果表明,CSMAE显著优于现有的自监督预训练和基于适配器的迁移学习方法。具体的性能提升幅度未知,但摘要中强调了“显著”的提升,表明CSMAE具有很强的竞争力。

🎯 应用场景

CSMAE在手术视频分析领域具有广泛的应用前景,例如:手术步骤自动识别、手术质量评估、手术导航和机器人辅助手术等。通过对手术视频进行深入分析,可以提高手术效率、减少手术风险,并为医生提供更好的培训和决策支持。该研究成果有望推动手术智能化发展,改善医疗服务质量。

📄 摘要(原文)

Automated analysis of surgical videos is crucial for improving surgical training, workflow optimization, and postoperative assessment. We introduce a CSMAE, Masked Autoencoder (MAE)-based pretraining approach, specifically developed for Cataract Surgery video analysis, where instead of randomly selecting tokens for masking, they are selected based on the spatiotemporal importance of the token. We created a large dataset of cataract surgery videos to improve the model's learning efficiency and expand its robustness in low-data regimes. Our pre-trained model can be easily adapted for specific downstream tasks via fine-tuning, serving as a robust backbone for further analysis. Through rigorous testing on a downstream step-recognition task on two Cataract Surgery video datasets, D99 and Cataract-101, our approach surpasses current state-of-the-art self-supervised pretraining and adapter-based transfer learning methods by a significant margin. This advancement not only demonstrates the potential of our MAE-based pretraining in the field of surgical video analysis but also sets a new benchmark for future research.