TSdetector: Temporal-Spatial Self-correction Collaborative Learning for Colonoscopy Video Detection

📄 arXiv: 2409.19983v1 📥 PDF

作者: Kaini Wang, Haolin Wang, Guang-Quan Zhou, Yangang Wang, Ling Yang, Yang Chen, Shuo Li

分类: cs.CV

发布日期: 2024-09-30

🔗 代码/项目: GITHUB


💡 一句话要点

提出TSdetector以解决结肠镜视频中多发性息肉检测问题

🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting)

关键词: 结肠镜检测 多发性息肉 时空自校正 目标检测 深度学习 卷积神经网络 医学影像分析

📋 核心要点

  1. 现有的多发性息肉检测方法在复杂的结肠镜视频中面临序列内部分布异质性和精度-置信度差异的挑战。
  2. 本文提出的TSdetector通过时间级和空间级的自校正机制,提升了目标检测的连续性和准确性。
  3. 在三个公开数据集上的实验结果显示,TSdetector的息肉检测率高于现有最先进的方法,验证了其有效性。

📝 摘要(中文)

基于CNN的目标检测模型在多发性息肉检测任务中逐渐被应用,但在复杂的结肠镜视频场景中准确定位息肉仍然面临挑战。现有方法忽视了序列内部分布异质性和精度-置信度差异两个关键问题。为此,本文提出了一种新颖的时空自校正检测器TSdetector,首先整合了时间级一致性学习和空间级可靠性学习,以实现连续的目标检测。通过全球时间感知卷积和分层队列集成机制,充分利用上下文一致性信息,同时保留长序列依赖特征。实验结果表明,TSdetector在三个公开的息肉视频数据集上实现了最高的息肉检测率,超越了其他最先进的方法。

🔬 方法详解

问题定义:本文旨在解决结肠镜视频中多发性息肉检测的准确性问题,现有方法未能有效处理序列内部的分布异质性和精度与置信度之间的差异。

核心思路:TSdetector通过整合时间级一致性学习和空间级可靠性学习,动态引导卷积核关注全局特征,从而提升检测的连续性和准确性。

技术框架:该方法包括全球时间感知卷积模块和分层队列集成机制,前者用于动态引导特征提取,后者则通过逐步累积多时间特征来增强上下文一致性。

关键创新:TSdetector的主要创新在于引入了全球时间感知卷积和位置感知聚类,前者关注全局特征,后者则通过自适应重校准预测置信度,显著减少冗余边界框。

关键设计:在设计中,采用了分层队列集成机制来结合多时间特征,并通过位置感知聚类来探索候选框之间的空间关系,确保了模型的高效性和准确性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在三个公开的息肉视频数据集上,TSdetector实现了最高的息肉检测率,超越了其他最先进的方法,具体性能提升幅度未知,显示了其在复杂场景下的优越性。

🎯 应用场景

该研究在医学影像分析领域具有重要的应用潜力,尤其是在结肠镜检查中息肉的自动检测与识别。通过提高检测准确性,TSdetector能够帮助医生更快地做出诊断决策,从而提升患者的治疗效果和安全性。未来,该方法也可扩展至其他医学视频分析任务中。

📄 摘要(原文)

CNN-based object detection models that strike a balance between performance and speed have been gradually used in polyp detection tasks. Nevertheless, accurately locating polyps within complex colonoscopy video scenes remains challenging since existing methods ignore two key issues: intra-sequence distribution heterogeneity and precision-confidence discrepancy. To address these challenges, we propose a novel Temporal-Spatial self-correction detector (TSdetector), which first integrates temporal-level consistency learning and spatial-level reliability learning to detect objects continuously. Technically, we first propose a global temporal-aware convolution, assembling the preceding information to dynamically guide the current convolution kernel to focus on global features between sequences. In addition, we designed a hierarchical queue integration mechanism to combine multi-temporal features through a progressive accumulation manner, fully leveraging contextual consistency information together with retaining long-sequence-dependency features. Meanwhile, at the spatial level, we advance a position-aware clustering to explore the spatial relationships among candidate boxes for recalibrating prediction confidence adaptively, thus eliminating redundant bounding boxes efficiently. The experimental results on three publicly available polyp video dataset show that TSdetector achieves the highest polyp detection rate and outperforms other state-of-the-art methods. The code can be available at https://github.com/soleilssss/TSdetector.