EgoMAGIC- An Egocentric Video Field Medicine Dataset for Training Perception Algorithms

📄 arXiv: 2604.22036v1 📥 PDF

作者: Brian VanVoorst, Nicholas Walczak, Christopher Gilleo, Charles Meissner, Fabio Felix, Iran Roman, Bea Steers, Claudio Silva, Yuhan Shen, Zijia Lu, Shih-Po Lee, Ehsan Elhamifar

分类: cs.CV, cs.AI, cs.LG

发布日期: 2026-04-23

备注: 9 pages, 4 figures, 3 tables


💡 一句话要点

EgoMAGIC:用于训练感知算法的以自我为中心的医疗视频数据集

🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction)

关键词: 医疗视频数据集 以自我为中心 动作检测 对象检测 YOLO 增强现实 医疗辅助 计算机视觉

📋 核心要点

  1. 现有医疗任务辅助系统缺乏大规模、高质量的以自我为中心的视频数据集,限制了感知算法的训练和性能。
  2. EgoMAGIC数据集通过头戴式立体相机记录了50项医疗任务,提供了大量带标注的以自我为中心的医疗活动视频。
  3. 论文基于EgoMAGIC数据集进行了动作检测基线实验,并发布了预训练的YOLO模型,为后续研究提供了基础。

📝 摘要(中文)

本文介绍EgoMAGIC(医疗协助、指导、指示和纠正)数据集,这是一个以自我为中心的医疗活动数据集,作为DARPA的感知使能任务指导(PTG)计划的一部分收集。该数据集包含3355个视频,涵盖50项医疗任务,每项任务至少有50个带标签的视频。PTG计划的主要目标是开发集成到增强现实头显中的虚拟助手,以帮助用户执行复杂的任务。为了鼓励使用该数据集进行探索和研究,医疗训练数据已发布,并附带一项针对八项医疗任务的动作检测挑战。大多数视频是使用带有集成音频的头戴式立体相机录制的。从该数据集中,使用195万个标签训练了40个YOLO模型,以检测124个医疗对象,为开发人员开发医疗AI应用程序提供了一个强大的起点。除了介绍数据集外,本文还介绍了三种模型在八个选定的医疗任务上进行动作检测的基线结果,其中性能最佳的方法实现了平均mAP 0.526。虽然本文主要将动作检测作为基准,但EgoMAGIC数据集同样适用于动作识别、对象识别和检测、错误检测以及其他具有挑战性的计算机视觉任务。该数据集可通过zenodo.org访问(DOI: 10.5281/zenodo.19239154)。

🔬 方法详解

问题定义:论文旨在解决医疗场景下,缺乏高质量、大规模的以自我为中心的视频数据集的问题。现有方法难以有效训练感知算法,从而限制了增强现实医疗辅助系统的发展。

核心思路:论文的核心思路是构建一个包含大量医疗任务视频,并带有详细标注的数据集,从而为医疗AI算法的训练和评估提供基础。通过提供预训练模型和基线结果,降低研究人员的使用门槛。

技术框架:EgoMAGIC数据集的构建流程主要包括:1) 数据采集:使用头戴式立体相机记录50项医疗任务的视频;2) 数据标注:对视频中的医疗对象和动作进行标注,总计195万个标签,涵盖124个医疗对象;3) 模型训练:使用标注数据训练40个YOLO模型,用于对象检测;4) 基线评估:在8项医疗任务上进行动作检测的基线实验,评估数据集的性能。

关键创新:该数据集的关键创新在于其以自我为中心的视角和大规模的标注数据。与传统的第三方视角数据集相比,以自我为中心的视角更贴近实际应用场景,能够更好地捕捉操作者的动作和意图。此外,大规模的标注数据为训练高性能的感知算法提供了保障。

关键设计:数据集使用头戴式立体相机进行录制,保证了视频的质量和立体视觉信息。标注数据涵盖了124个医疗对象,提供了丰富的语义信息。基线实验使用了YOLO模型进行对象检测,并使用平均mAP作为评估指标。论文还提供了预训练的YOLO模型,方便研究人员快速上手。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文在EgoMAGIC数据集上进行了动作检测基线实验,最佳模型在8项医疗任务上实现了平均mAP 0.526。此外,论文还提供了40个预训练的YOLO模型,为后续研究提供了强大的起点。这些结果表明EgoMAGIC数据集具有较高的质量和潜力,可以有效促进医疗AI算法的发展。

🎯 应用场景

EgoMAGIC数据集可广泛应用于医疗辅助、远程医疗、医疗培训等领域。通过训练感知算法,可以开发增强现实医疗辅助系统,为医生和护士提供实时指导和帮助,提高医疗效率和质量。此外,该数据集还可以用于开发智能医疗设备和机器人,实现自动化医疗操作。

📄 摘要(原文)

This paper introduces EgoMAGIC (Medical Assistance, Guidance, Instruction, and Correction), an egocentric medical activity dataset collected as part of DARPA's Perceptually-enabled Task Guidance (PTG) program. This dataset comprises 3,355 videos of 50 medical tasks, with at least 50 labeled videos per task. The primary objective of the PTG program was to develop virtual assistants integrated into augmented reality headsets to assist users in performing complex tasks. To encourage exploration and research using this dataset, the medical training data has been released along with an action detection challenge focused on eight medical tasks. The majority of the videos were recorded using a head-mounted stereo camera with integrated audio. From this dataset, 40 YOLO models were trained using 1.95 million labels to detect 124 medical objects, providing a robust starting point for developers working on medical AI applications. In addition to introducing the dataset, this paper presents baseline results on action detection for the eight selected medical tasks across three models, with the best-performing method achieving average mAP 0.526. Although this paper primarily addresses action detection as the benchmark, the EgoMAGIC dataset is equally suitable for action recognition, object identification and detection, error detection, and other challenging computer vision tasks. The dataset is accessible via zenodo.org (DOI: 10.5281/zenodo.19239154).