BleedOrigin: Dynamic Bleeding Source Localization in Endoscopic Submucosal Dissection via Dual-Stage Detection and Tracking
作者: Mengya Xu, Rulin Zhou, An Wang, Chaoyang Lyu, Zhen Li, Ning Zhong, Hongliang Ren
分类: cs.CV, cs.AI
发布日期: 2025-07-20
备注: 27 pages, 14 figures
💡 一句话要点
BleedOrigin-Net:用于内镜黏膜下剥离术中动态出血源定位的双阶段检测跟踪框架
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 内镜手术 出血源定位 目标检测 点跟踪 深度学习 医疗影像 ESD手术
📋 核心要点
- 现有AI方法侧重出血区域分割,忽略了ESD中出血源的精确定位和时序跟踪需求,且缺乏专用数据集。
- BleedOrigin-Net通过双阶段检测跟踪框架,从出血开始检测到连续空间跟踪,实现出血源的精确定位。
- 实验结果表明,BleedOrigin-Net在出血起始检测、初始源检测和点跟踪方面均取得了最先进的性能。
📝 摘要(中文)
内镜黏膜下剥离术(ESD)中的术中出血带来显著风险,需要精确、实时的出血源定位和持续监测,以便进行有效的止血干预。内镜医师必须反复冲洗以清除血液,只有几毫秒的时间来识别出血源,这种低效的过程延长了手术时间并增加了患者风险。然而,当前的人工智能方法主要集中于出血区域分割,忽略了在充满视觉障碍和动态场景变化的ESD环境中,对精确出血源检测和时间跟踪的关键需求。缺乏专门的数据集进一步扩大了这一差距,阻碍了稳健的AI辅助引导系统的发展。为了应对这些挑战,我们推出了BleedOrigin-Bench,这是第一个全面的ESD出血源数据集,包含来自44个手术的106,222帧图像中1,771个专家标注的出血源,并辅以39,755个伪标记帧。该基准测试涵盖了8个解剖部位和6个具有挑战性的临床场景。我们还提出了BleedOrigin-Net,一种用于ESD手术中出血源定位的新型双阶段检测跟踪框架,解决了从出血开始检测到连续空间跟踪的完整工作流程。我们与广泛使用的目标检测模型(YOLOv11/v12)、多模态大型语言模型和点跟踪方法进行了比较。广泛的评估表明了最先进的性能,出血开始检测的帧级精度为96.85% (误差在±8帧以内),初始源检测的像素级精度为70.24% (误差在100像素以内),点跟踪的像素级精度为96.11% (误差在100像素以内)。
🔬 方法详解
问题定义:论文旨在解决内镜黏膜下剥离术(ESD)中出血源的精确定位和实时跟踪问题。现有方法主要集中于出血区域分割,无法满足临床上对出血源精确定位和持续监测的需求。此外,ESD手术环境复杂,存在频繁的视觉遮挡和动态场景变化,进一步增加了出血源定位的难度。缺乏专门的数据集也限制了相关AI算法的开发和应用。
核心思路:论文的核心思路是构建一个双阶段的检测跟踪框架,首先检测出血的起始帧,然后对出血源进行精确定位和持续跟踪。这种方法能够有效地应对ESD手术环境中的挑战,提供更准确、更可靠的出血源定位信息。通过构建大规模的出血源数据集,为算法的训练和评估提供了有力支持。
技术框架:BleedOrigin-Net框架包含两个主要阶段:出血起始检测阶段和出血源检测跟踪阶段。在出血起始检测阶段,使用时序模型分析视频帧序列,判断出血是否发生。一旦检测到出血起始帧,进入出血源检测跟踪阶段。该阶段首先使用目标检测模型定位初始出血源,然后利用点跟踪算法对出血源进行持续跟踪。
关键创新:论文的关键创新在于提出了一个双阶段的检测跟踪框架,能够有效地应对ESD手术环境中的挑战。此外,论文还构建了第一个全面的ESD出血源数据集BleedOrigin-Bench,为相关研究提供了重要资源。该数据集包含大量专家标注的出血源,涵盖了多种解剖部位和临床场景。
关键设计:在出血起始检测阶段,使用了基于Transformer的时序模型,能够有效地捕捉视频帧序列中的时序信息。在出血源检测阶段,使用了改进的YOLOv11/v12目标检测模型,提高了出血源定位的精度。在点跟踪阶段,使用了基于光流法的点跟踪算法,能够对出血源进行持续跟踪。损失函数方面,使用了交叉熵损失函数和IoU损失函数,以提高模型的训练效果。
🖼️ 关键图片
📊 实验亮点
BleedOrigin-Net在BleedOrigin-Bench数据集上取得了显著的性能提升。出血起始检测的帧级精度达到96.85% (误差在±8帧以内),初始源检测的像素级精度为70.24% (误差在100像素以内),点跟踪的像素级精度为96.11% (误差在100像素以内)。与YOLOv11/v12等基线模型相比,BleedOrigin-Net在出血源定位精度和跟踪稳定性方面均有明显优势。
🎯 应用场景
该研究成果可应用于开发AI辅助的ESD手术导航系统,帮助医生快速、准确地定位出血源,缩短手术时间,降低患者风险。此外,该技术还可扩展到其他内镜手术中,提高手术的安全性和有效性。未来,结合增强现实技术,可实现出血源的可视化引导,进一步提升手术效果。
📄 摘要(原文)
Intraoperative bleeding during Endoscopic Submucosal Dissection (ESD) poses significant risks, demanding precise, real-time localization and continuous monitoring of the bleeding source for effective hemostatic intervention. In particular, endoscopists have to repeatedly flush to clear blood, allowing only milliseconds to identify bleeding sources, an inefficient process that prolongs operations and elevates patient risks. However, current Artificial Intelligence (AI) methods primarily focus on bleeding region segmentation, overlooking the critical need for accurate bleeding source detection and temporal tracking in the challenging ESD environment, which is marked by frequent visual obstructions and dynamic scene changes. This gap is widened by the lack of specialized datasets, hindering the development of robust AI-assisted guidance systems. To address these challenges, we introduce BleedOrigin-Bench, the first comprehensive ESD bleeding source dataset, featuring 1,771 expert-annotated bleeding sources across 106,222 frames from 44 procedures, supplemented with 39,755 pseudo-labeled frames. This benchmark covers 8 anatomical sites and 6 challenging clinical scenarios. We also present BleedOrigin-Net, a novel dual-stage detection-tracking framework for the bleeding source localization in ESD procedures, addressing the complete workflow from bleeding onset detection to continuous spatial tracking. We compare with widely-used object detection models (YOLOv11/v12), multimodal large language models, and point tracking methods. Extensive evaluation demonstrates state-of-the-art performance, achieving 96.85% frame-level accuracy ($\pm\leq8$ frames) for bleeding onset detection, 70.24% pixel-level accuracy ($\leq100$ px) for initial source detection, and 96.11% pixel-level accuracy ($\leq100$ px) for point tracking.