Contrastive Learning under Noisy Temporal Self-Supervision for Colonoscopy Videos

作者: Luca Parolari, Pietro Gori, Lamberto Ballan, Carlo Biffi, Loic Le Folgoc

分类: cs.CV

发布日期: 2026-05-12

备注: Accepted to MICCAI 2026

🔗 代码/项目: GITHUB

💡 一句话要点

针对结肠镜视频，提出噪声感知的时序自监督对比学习方法

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 结肠镜视频分析 自监督学习 对比学习 噪声感知 息肉表征 医学图像处理 时序建模

📋 核心要点

现有方法依赖人工标注息肉轨迹，成本高昂且需要专业知识，限制了结肠镜视频息肉表征学习。
利用结肠镜检查的时序结构进行自监督学习，并设计噪声感知的对比损失，以应对时序关联中的噪声。
实验表明，该方法在息肉检索、重识别、大小估计和组织学分类等任务上优于现有方法，甚至媲美大型基础模型。

📝 摘要（中文）

学习息肉轨迹的鲁棒表示对于多种AI辅助结肠镜应用至关重要，例如息肉表征、自动报告和检索。监督对比学习是学习此类表示的有效方法，但它通常依赖于正确的正负样本定义。收集这些标签需要连接在视频中描绘相同底层息肉实体的轨迹，这既昂贵又需要专业的临床知识。本文利用结肠镜检查程序的顺序工作流程，从时间结构中导出自我监督的关联。由于时间导出的关联不能保证正确，因此我们引入了一种噪声感知的对比损失来解释噪声关联。我们证明了学习到的表示在多个下游任务中的有效性，包括息肉检索和重识别、大小估计和组织学分类。我们的方法优于先前的自监督和监督基线，并且在使用仅在27个视频上训练的轻量级编码器的情况下，在所有任务中匹配或超过了最近的基础模型。代码可在https://github.com/lparolari/ntssl获得。

🔬 方法详解

问题定义：结肠镜视频分析中，学习息肉轨迹的鲁棒表示至关重要。然而，现有监督对比学习方法依赖于准确的正负样本定义，需要人工标注视频中同一息肉实体的轨迹，这耗时耗力，且需要专业的临床知识。因此，如何降低标注成本，实现高效的息肉表征学习是一个关键问题。

核心思路：论文的核心思路是利用结肠镜检查流程的固有时间顺序结构，自动生成自监督信号。具体来说，假设时间上相邻的息肉轨迹更有可能属于同一个息肉。为了解决这种时间关联中存在的噪声问题（即相邻轨迹可能并非同一息肉），论文引入了一种噪声感知的对比损失函数。

技术框架：整体框架包括：1）使用轻量级编码器（例如ResNet）提取息肉轨迹的特征；2）利用时间邻近性构建正样本对；3）使用噪声感知的对比损失函数训练编码器，该损失函数能够降低错误正样本对的影响；4）将学习到的息肉表征应用于下游任务，如息肉检索、重识别、大小估计和组织学分类。

关键创新：该论文的关键创新在于提出了噪声感知的对比学习方法，能够有效利用结肠镜视频的时序信息进行自监督学习，同时减轻了时序关联中噪声的影响。与传统的对比学习方法相比，该方法不需要人工标注，降低了成本，并且能够学习到更鲁棒的息肉表征。

关键设计：噪声感知的对比损失函数是关键设计。具体来说，该损失函数在计算对比损失时，会根据时间距离对正样本对进行加权。时间距离越近的正样本对，权重越高，反之则越低。这种加权方式可以降低错误正样本对的贡献，从而提高学习效果。此外，论文还使用了温度系数来控制对比损失的锐利度，并采用了一种动量更新策略来稳定训练过程。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该方法在息肉检索、重识别、大小估计和组织学分类等多个下游任务上均取得了显著的性能提升。例如，在息肉检索任务中，该方法优于现有的自监督和监督基线，并且在所有任务中匹配或超过了最近的基础模型，而使用的编码器仅在27个视频上进行了训练，表明该方法具有很高的效率和泛化能力。

🎯 应用场景

该研究成果可广泛应用于AI辅助结肠镜检查，例如：辅助医生进行息肉的自动检测、表征和分类，提高诊断准确率和效率；实现息肉的自动检索和重识别，方便医生回顾和比较历史病例；进行息肉大小的自动估计，辅助医生制定治疗方案；为结肠镜检查的自动报告和质量控制提供技术支持。该技术有望降低结肠癌的漏诊率，改善患者的预后。

📄 摘要（原文）

Learning robust representations of polyp tracklets is key to enabling multiple AI-assisted colonoscopy applications, from polyp characterization to automated reporting and retrieval. Supervised contrastive learning is an effective approach for learning such representations, but it typically relies on correct positive and negative definitions. Collecting these labels requires linking tracklets that depict the same underlying polyp entity throughout the video, which is costly and demands specialized clinical expertise. In this work, we leverage the sequential workflow of colonoscopy procedures to derive self-supervised associations from temporal structure. Since temporally derived associations are not guaranteed to be correct, we introduce a noise-aware contrastive loss to account for noisy associations. We demonstrate the effectiveness of the learned representations across multiple downstream tasks, including polyp retrieval and re-identification, size estimation, and histology classification. Our method outperforms prior self-supervised and supervised baselines, and matches or exceeds recent foundation models across all tasks, using a lightweight encoder trained on only 27 videos. Code is available at https://github.com/lparolari/ntssl.

Contrastive Learning under Noisy Temporal Self-Supervision for Colonoscopy Videos

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理