EgoSurgery-Phase: A Dataset of Surgical Phase Recognition from Egocentric Open Surgery Videos
作者: Ryo Fujii, Masashi Hatano, Hideo Saito, Hiroki Kajita
分类: cs.CV, cs.AI, cs.LG
发布日期: 2024-05-30 (更新: 2024-11-27)
备注: Early accepted by MICCAI 2024
🔗 代码/项目: GITHUB
💡 一句话要点
EgoSurgery-Phase:发布首个开放手术阶段识别的头戴相机视角视频数据集,并提出注视引导的掩码自编码器。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱六:视频提取与匹配 (Video Extraction)
关键词: 手术阶段识别 开放手术 头戴相机 眼动追踪 掩码自编码器 视频理解 数据集 注视引导
📋 核心要点
- 现有手术阶段识别方法主要集中于微创手术,缺乏针对开放手术的公开数据集,阻碍了相关研究的进展。
- 论文提出EgoSurgery-Phase数据集,包含头戴相机视角的开放手术视频和眼动追踪数据,为开放手术阶段识别提供了宝贵资源。
- 论文提出注视引导的掩码自编码器(GGMAE),利用眼动追踪信息指导掩码过程,提升了手术阶段识别的准确率。
📝 摘要(中文)
手术阶段识别因其在现代手术室中的潜在应用而备受关注。然而,现有方法大多集中于微创手术(MIS),而对开放手术的阶段识别研究不足。造成这种差异的主要原因是缺乏公开可用的开放手术视频数据集。为了解决这个问题,我们引入了一个新的用于阶段识别的头戴相机视角的开放手术视频数据集,名为EgoSurgery-Phase。该数据集包含15小时的真实开放手术视频,涵盖9个不同的手术阶段,所有视频均使用连接在外科医生头部的头戴相机拍摄。除了视频,EgoSurgery-Phase还提供眼动追踪数据。据我们所知,这是首个公开可用的真实开放手术视频数据集,用于手术阶段识别。此外,受到掩码自编码器(MAE)在视频理解任务(例如,动作识别)中取得的显著成功的启发,我们提出了一种注视引导的掩码自编码器(GGMAE)。考虑到外科医生注视的区域通常对手术阶段识别至关重要(例如,手术视野),在我们的GGMAE中,注视信息充当经验语义丰富先验,以指导掩码过程,从而更好地关注语义丰富的空间区域。GGMAE显著提高了EgoSurgery-Phase上先前最先进的识别方法(Jaccard系数提升6.4%)和基于掩码自编码器的方法(Jaccard系数提升3.1%)。该数据集已在https://github.com/Fujiry0/EgoSurgery上发布。
🔬 方法详解
问题定义:现有手术阶段识别研究主要集中在微创手术(MIS),缺乏针对开放手术的公开数据集。这限制了开放手术阶段识别算法的开发和评估,阻碍了该领域的发展。现有方法难以有效利用开放手术中外科医生的操作习惯和视觉关注点进行阶段识别。
核心思路:论文的核心思路是构建一个包含头戴相机视角的开放手术视频数据集,并利用外科医生的眼动追踪数据作为先验知识,引导掩码自编码器的训练,从而提升手术阶段识别的准确率。通过模拟外科医生的视觉关注,使模型能够更好地关注手术过程中的关键区域。
技术框架:整体框架包括两个主要部分:数据集构建和模型训练。数据集EgoSurgery-Phase包含头戴相机拍摄的开放手术视频和对应的眼动追踪数据。模型GGMAE基于掩码自编码器(MAE),并引入了注视引导的掩码策略。首先,利用眼动追踪数据生成注视热图,然后根据热图的权重对视频帧进行掩码。最后,使用掩码后的视频帧训练MAE,并将其应用于手术阶段识别任务。
关键创新:论文的关键创新在于提出了注视引导的掩码策略。传统的掩码自编码器通常采用随机掩码,而GGMAE利用眼动追踪数据作为先验知识,引导掩码过程,使模型能够更好地关注手术过程中的关键区域。这种方法能够有效地利用外科医生的视觉关注点,提升手术阶段识别的准确率。
关键设计:GGMAE的关键设计包括:1) 使用高斯核平滑眼动追踪数据,生成注视热图;2) 根据热图的权重,对视频帧进行掩码,权重高的区域被掩码的概率较低;3) 使用Transformer作为MAE的骨干网络,学习视频帧的表示;4) 使用交叉熵损失函数训练MAE,优化模型参数。
🖼️ 关键图片
📊 实验亮点
实验结果表明,GGMAE在EgoSurgery-Phase数据集上显著优于现有方法。与先前最先进的识别方法相比,Jaccard系数提升了6.4%。与基于掩码自编码器的方法相比,Jaccard系数提升了3.1%。这些结果表明,注视引导的掩码策略能够有效地提升手术阶段识别的准确率。
🎯 应用场景
该研究成果可应用于智能手术室、手术机器人辅助、外科医生培训等领域。通过自动识别手术阶段,可以为外科医生提供实时的决策支持,提高手术效率和安全性。此外,该数据集和方法可以促进开放手术阶段识别领域的研究,推动相关技术的发展。
📄 摘要(原文)
Surgical phase recognition has gained significant attention due to its potential to offer solutions to numerous demands of the modern operating room. However, most existing methods concentrate on minimally invasive surgery (MIS), leaving surgical phase recognition for open surgery understudied. This discrepancy is primarily attributed to the scarcity of publicly available open surgery video datasets for surgical phase recognition. To address this issue, we introduce a new egocentric open surgery video dataset for phase recognition, named EgoSurgery-Phase. This dataset comprises 15 hours of real open surgery videos spanning 9 distinct surgical phases all captured using an egocentric camera attached to the surgeon's head. In addition to video, the EgoSurgery-Phase offers eye gaze. As far as we know, it is the first real open surgery video dataset for surgical phase recognition publicly available. Furthermore, inspired by the notable success of masked autoencoders (MAEs) in video understanding tasks (e.g., action recognition), we propose a gaze-guided masked autoencoder (GGMAE). Considering the regions where surgeons' gaze focuses are often critical for surgical phase recognition (e.g., surgical field), in our GGMAE, the gaze information acts as an empirical semantic richness prior to guiding the masking process, promoting better attention to semantically rich spatial regions. GGMAE significantly improves the previous state-of-the-art recognition method (6.4% in Jaccard) and the masked autoencoder-based method (3.1% in Jaccard) on EgoSurgery-Phase. The dataset is released at https://github.com/Fujiry0/EgoSurgery.