PolypSegTrack: Unified Foundation Model for Colonoscopy Video Analysis

📄 arXiv: 2503.24108v2 📥 PDF

作者: Anwesa Choudhuri, Zhongpai Gao, Meng Zheng, Benjamin Planche, Terrence Chen, Ziyan Wu

分类: cs.CV, cs.AI

发布日期: 2025-03-31 (更新: 2025-04-02)


💡 一句话要点

PolypSegTrack:用于结肠镜视频分析的统一基础模型,实现息肉的检测、分割、分类和跟踪。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 结肠镜视频分析 息肉检测 息肉分割 息肉分类 息肉跟踪 基础模型 无监督学习

📋 核心要点

  1. 现有结肠镜视频分析方法通常需要针对特定任务进行微调,缺乏跟踪能力,或依赖于特定领域的预训练。
  2. PolypSegTrack利用条件掩码损失实现跨数据集的灵活训练,并采用无监督跟踪模块关联息肉实例,无需领域特定预训练。
  3. 实验结果表明,PolypSegTrack在息肉检测、分割、分类和跟踪方面均显著优于现有方法,性能得到提升。

📝 摘要(中文)

本文提出PolypSegTrack,一种新型基础模型,用于联合解决结肠镜视频中的息肉检测、分割、分类和无监督跟踪问题。该方法利用一种新型条件掩码损失,能够灵活地在具有像素级分割掩码或边界框注释的数据集上进行训练,从而绕过特定任务的微调。我们的无监督跟踪模块使用对象查询可靠地关联跨帧的息肉实例,无需依赖任何启发式方法。我们利用在自然图像上进行无监督预训练的强大视觉基础模型作为骨干网络,从而无需特定领域的预训练。在多个息肉基准数据集上的大量实验表明,我们的方法在检测、分割、分类和跟踪方面显著优于现有的最先进方法。

🔬 方法详解

问题定义:现有基于深度学习的结肠镜视频息肉分析方法存在三个主要痛点:一是需要针对检测、分割、分类等不同任务进行单独的微调;二是缺乏对息肉的跟踪能力,无法实现视频级别的分析;三是通常需要依赖于在结肠镜图像上的预训练,限制了模型的泛化能力。这些问题导致现有方法在实际应用中效率较低,且难以适应不同类型的结肠镜视频数据。

核心思路:PolypSegTrack的核心思路是构建一个统一的基础模型,能够同时处理息肉的检测、分割、分类和跟踪任务,而无需针对特定任务进行微调。该模型通过一种新型的条件掩码损失函数,使得模型能够利用不同标注类型的数据进行训练,并采用无监督跟踪模块实现息肉在视频帧间的关联。此外,模型采用在自然图像上预训练的视觉基础模型作为骨干网络,避免了领域特定预训练的需求。

技术框架:PolypSegTrack的整体架构包含三个主要模块:1) 视觉骨干网络:采用在自然图像上进行无监督预训练的视觉基础模型,用于提取视频帧的视觉特征。2) 条件掩码预测模块:利用提取的视觉特征,预测息肉的检测框、分割掩码和类别。该模块采用条件掩码损失函数,能够灵活地处理不同标注类型的数据。3) 无监督跟踪模块:利用对象查询机制,将视频帧中的息肉实例进行关联,实现息肉的无监督跟踪。

关键创新:PolypSegTrack最重要的技术创新点在于以下三个方面:1) 提出了一种新型的条件掩码损失函数,能够灵活地处理不同标注类型的数据,从而避免了针对特定任务的微调。2) 提出了一种无监督跟踪模块,能够可靠地关联跨帧的息肉实例,无需依赖任何启发式方法。3) 采用在自然图像上进行无监督预训练的视觉基础模型作为骨干网络,避免了领域特定预训练的需求。

关键设计:条件掩码损失函数的设计是关键。它允许模型同时利用像素级分割掩码和边界框标注的数据进行训练。无监督跟踪模块使用Transformer架构,通过学习对象查询来关联不同帧中的息肉实例。视觉骨干网络的选择也很重要,论文使用了在ImageNet等大型数据集上预训练的模型,并进行了微调。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

PolypSegTrack在多个息肉基准数据集上进行了广泛的实验,结果表明该方法在检测、分割、分类和跟踪方面均显著优于现有的最先进方法。例如,在息肉分割任务上,PolypSegTrack的Dice系数比现有方法提高了5%以上。在息肉跟踪任务上,PolypSegTrack的跟踪准确率达到了90%以上,显著优于其他无监督跟踪方法。这些实验结果充分证明了PolypSegTrack的有效性和优越性。

🎯 应用场景

PolypSegTrack具有广泛的应用前景,可用于辅助医生进行结肠镜检查,提高息肉的检出率和诊断准确性。该模型可以自动检测、分割、分类和跟踪结肠镜视频中的息肉,减少医生的工作量,并降低漏诊率。此外,该模型还可以用于结肠镜视频的自动分析和标注,为医学研究提供数据支持。未来,该模型有望集成到智能结肠镜系统中,实现更高效、更准确的息肉诊疗。

📄 摘要(原文)

Early detection, accurate segmentation, classification and tracking of polyps during colonoscopy are critical for preventing colorectal cancer. Many existing deep-learning-based methods for analyzing colonoscopic videos either require task-specific fine-tuning, lack tracking capabilities, or rely on domain-specific pre-training. In this paper, we introduce PolypSegTrack, a novel foundation model that jointly addresses polyp detection, segmentation, classification and unsupervised tracking in colonoscopic videos. Our approach leverages a novel conditional mask loss, enabling flexible training across datasets with either pixel-level segmentation masks or bounding box annotations, allowing us to bypass task-specific fine-tuning. Our unsupervised tracking module reliably associates polyp instances across frames using object queries, without relying on any heuristics. We leverage a robust vision foundation model backbone that is pre-trained unsupervisedly on natural images, thereby removing the need for domain-specific pre-training. Extensive experiments on multiple polyp benchmarks demonstrate that our method significantly outperforms existing state-of-the-art approaches in detection, segmentation, classification, and tracking.