EgoSurgery-Tool: A Dataset of Surgical Tool and Hand Detection from Egocentric Open Surgery Videos
作者: Ryo Fujii, Hideo Saito, Hiroki Kajita
分类: cs.CV, cs.AI, cs.LG
发布日期: 2024-06-05 (更新: 2024-11-27)
🔗 代码/项目: GITHUB
💡 一句话要点
EgoSurgery-Tool:一个用于术中工具和手部检测的自中心视角手术视频数据集
🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction)
关键词: 手术工具检测 手部检测 自中心视角 手术视频 数据集 目标检测 开放手术
📋 核心要点
- 手术工具检测是理解自中心视角开放手术视频的基础,但现有数据集规模不足,工具类别有限,难以训练鲁棒的模型。
- EgoSurgery-Tool通过提供大规模、多样化的手术工具和手部标注,以及密集的场景信息,为解决上述问题提供了数据基础。
- 论文使用九种流行的目标检测器对数据集进行了评估,验证了数据集的有效性,并为未来的研究提供了基准。
📝 摘要(中文)
本文提出了EgoSurgery-Tool,它是现有EgoSurgery-Phase数据集的扩展,包含使用固定在外科医生头部的自中心相机捕获的真实开放手术视频,以及阶段注释。EgoSurgery-Tool对超过49K个手术工具边界框(涵盖15个类别)进行了密集标注,构成了一个大规模的手术工具检测数据集。此外,EgoSurgery-Tool还提供了超过46K个手部边界框的手部检测注释,捕捉了手部与物体之间的交互,这对于理解自中心开放手术中的活动至关重要。EgoSurgery-Tool优于现有数据集,因为它规模更大、手术工具种类更多、注释更丰富、场景更密集。我们使用九种流行的目标检测器对EgoSurgery-Tool进行了全面分析,以评估它们在手术工具和手部检测中的有效性。该数据集将在https://github.com/Fujiry0/EgoSurgery上发布。
🔬 方法详解
问题定义:论文旨在解决自中心开放手术视频中手术工具和手部检测问题。现有方法受限于缺乏大规模、高质量的标注数据集,导致模型难以处理手术工具类别不平衡、形状和纹理相似以及严重遮挡等挑战。
核心思路:论文的核心思路是构建一个大规模、高质量的自中心手术视频数据集,包含手术工具和手部的密集标注。通过提供丰富的数据,促进开发更鲁棒、更准确的手术工具和手部检测模型。
技术框架:EgoSurgery-Tool数据集是基于现有的EgoSurgery-Phase数据集扩展而来。主要包含以下几个部分:1) 自中心视角的开放手术视频;2) 手术阶段的标注;3) 手术工具的边界框标注(15个类别);4) 手部边界框的标注。数据集的构建流程包括视频采集、人工标注和数据验证等步骤。
关键创新:EgoSurgery-Tool的关键创新在于其大规模和高质量的标注。与现有数据集相比,EgoSurgery-Tool包含更多的手术视频、更丰富的手术工具类别、更密集的标注以及手部标注,从而能够更好地捕捉手术场景中的复杂交互。
关键设计:数据集包含超过49K个手术工具边界框和超过46K个手部边界框。标注过程采用人工标注,并经过多轮验证以确保标注质量。论文使用九种流行的目标检测器(具体模型未知)对数据集进行评估,并报告了相应的性能指标(具体指标未知)。
🖼️ 关键图片
📊 实验亮点
论文使用九种流行的目标检测器对EgoSurgery-Tool数据集进行了评估,为手术工具和手部检测任务提供了基准性能。实验结果表明,该数据集具有挑战性,但也为未来的研究提供了很大的潜力。具体的性能数据和对比基线未在摘要中详细说明,需要在论文中进一步查找。
🎯 应用场景
EgoSurgery-Tool数据集可用于训练和评估手术机器人、智能手术室等应用中的手术工具和手部检测算法。该数据集有助于提高手术过程的自动化程度,辅助医生进行手术操作,并为手术技能评估和培训提供数据支持。未来,该数据集可以扩展到其他类型的手术,并与其他模态的数据(如力反馈、声音等)进行融合,以实现更全面的手术理解。
📄 摘要(原文)
Surgical tool detection is a fundamental task for understanding egocentric open surgery videos. However, detecting surgical tools presents significant challenges due to their highly imbalanced class distribution, similar shapes and similar textures, and heavy occlusion. The lack of a comprehensive large-scale dataset compounds these challenges. In this paper, we introduce EgoSurgery-Tool, an extension of the existing EgoSurgery-Phase dataset, which contains real open surgery videos captured using an egocentric camera attached to the surgeon's head, along with phase annotations. EgoSurgery-Tool has been densely annotated with surgical tools and comprises over 49K surgical tool bounding boxes across 15 categories, constituting a large-scale surgical tool detection dataset. EgoSurgery-Tool also provides annotations for hand detection with over 46K hand-bounding boxes, capturing hand-object interactions that are crucial for understanding activities in egocentric open surgery. EgoSurgery-Tool is superior to existing datasets due to its larger scale, greater variety of surgical tools, more annotations, and denser scenes. We conduct a comprehensive analysis of EgoSurgery-Tool using nine popular object detectors to assess their effectiveness in both surgical tool and hand detection. The dataset will be released at https://github.com/Fujiry0/EgoSurgery.