Needle in a Haystack: One-Class Representation Learning for Detecting Rare Malignant Cells in Computational Cytology
作者: Swarnadip Chatterjee, Vladimir Basic, Arrigo Capitanio, Orcun Goksel, Joakim Lindblad
分类: cs.CV, cs.LG
发布日期: 2026-04-09 (更新: 2026-04-10)
备注: 15 pages, 7 figures
💡 一句话要点
针对计算细胞学中罕见恶性细胞检测,提出基于One-Class Representation Learning的解决方案。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 计算细胞学 罕见恶性细胞检测 One-Class Representation Learning DSVDD DROC 弱监督学习 异常检测
📋 核心要点
- 全玻片细胞学图像中恶性细胞检测面临类不平衡和标注稀缺的挑战,传统MIL方法在低见证率下泛化能力不足。
- 论文提出基于One-Class Representation Learning的恶性细胞检测方法,仅使用阴性样本学习正常细胞的表征。
- 实验结果表明,DSVDD在超低见证率下表现出色,甚至优于完全监督学习,证明了该方法的有效性。
📝 摘要(中文)
在计算细胞学中,由于恶性细胞形态多样且在大量正常细胞背景下极其罕见,因此在全玻片图像上检测恶性肿瘤非常困难。由于类不平衡和有限的标注,准确检测这些极其罕见的恶性细胞仍然具有挑战性。传统的弱监督方法,如多示例学习(MIL),通常无法在实例级别泛化,尤其是在恶性细胞比例(见证率)极低时。本研究探索了使用单类表征学习技术来检测低见证率场景下的恶性细胞。这些方法仅在玻片阴性补丁上训练,无需任何实例级别的监督。具体来说,我们评估了两种OCC方法,DSVDD和DROC,并将它们与FS-SIL、WS-SIL和最近的ItS2CLR方法进行了比较。单类方法学习正常细胞的紧凑表征,并在测试时检测偏差。在公开的骨髓细胞形态学数据集(TCIA)和内部的口腔癌细胞学数据集上的实验表明,DSVDD在实例级别的异常排名中实现了最先进的性能,尤其是在超低见证率(≤1%)的情况下,甚至在某些情况下优于完全监督学习,而完全监督学习通常在全玻片细胞学中是不可行的,因为详尽的实例级别注释是不可行的。DROC在极端稀有情况下也具有竞争力,受益于分布增强的对比学习。这些发现突出了单类表征学习作为一种鲁棒且可解释的优于MIL的选择,用于在极端稀有情况下进行恶性细胞检测。
🔬 方法详解
问题定义:论文旨在解决计算细胞学中,在全玻片图像上检测罕见恶性细胞的问题。现有方法,特别是基于多示例学习(MIL)的弱监督方法,在恶性细胞比例极低的情况下,难以有效区分恶性细胞和正常细胞,泛化能力差。主要痛点在于正样本(恶性细胞)极度稀少,难以训练出鲁棒的模型。
核心思路:论文的核心思路是利用One-Class Representation Learning,即单类表征学习。该方法仅使用正常细胞的样本进行训练,学习正常细胞的紧凑表征。在测试阶段,通过检测与正常表征的偏差来识别恶性细胞。这种思路避免了对大量恶性细胞进行标注的需求,特别适用于正样本极度稀少的场景。
技术框架:整体框架包含训练和测试两个阶段。在训练阶段,使用大量的玻片阴性补丁(即只包含正常细胞的图像块)训练One-Class分类器。论文评估了两种One-Class方法:DSVDD(Deep Support Vector Data Description)和DROC(Distributionally Robust One-Class Classification)。在测试阶段,对于新的图像块,计算其与学习到的正常表征的偏差程度,以此来判断该图像块是否包含恶性细胞。
关键创新:最重要的技术创新点在于将One-Class Representation Learning应用于罕见恶性细胞的检测。与传统的MIL方法不同,该方法不需要任何恶性细胞的标注,而是通过学习正常细胞的分布来识别异常。DROC方法还引入了分布增强的对比学习,进一步提升了在极端稀有情况下的性能。
关键设计:DSVDD的目标是学习一个包含所有正常样本的最小体积的超球面,通过最小化超球面的半径来学习紧凑的表征。DROC则利用对比学习,通过增强正常样本的分布来提高模型的鲁棒性。具体的损失函数和网络结构的选择取决于具体的One-Class算法实现。
🖼️ 关键图片
📊 实验亮点
实验结果表明,DSVDD在超低见证率(≤1%)的情况下,在实例级别的异常排名中实现了最先进的性能,甚至在某些情况下优于完全监督学习。DROC在极端稀有情况下也表现出竞争力,证明了One-Class Representation Learning在罕见恶性细胞检测中的有效性。
🎯 应用场景
该研究成果可应用于计算病理学和细胞学领域,辅助医生进行癌症诊断。尤其是在需要检测罕见癌细胞的情况下,该方法可以显著减少对人工标注的依赖,提高诊断效率和准确性。未来可推广到其他罕见疾病的检测,具有重要的临床应用价值。
📄 摘要(原文)
In computational cytology, detecting malignancy on whole-slide images is difficult because malignant cells are morphologically diverse yet vanishingly rare amid a vast background of normal cells. Accurate detection of these extremely rare malignant cells remains challenging due to large class imbalance and limited annotations. Conventional weakly supervised approaches, such as multiple instance learning (MIL), often fail to generalize at the instance level, especially when the fraction of malignant cells (witness rate) is exceedingly low. In this study, we explore the use of one-class representation learning techniques for detecting malignant cells in low-witness-rate scenarios. These methods are trained exclusively on slide-negative patches, without requiring any instance-level supervision. Specifically, we evaluate two OCC approaches, DSVDD and DROC, and compare them with FS-SIL, WS-SIL, and the recent ItS2CLR method. The one-class methods learn compact representations of normality and detect deviations at test time. Experiments on a publicly available bone marrow cytomorphology dataset (TCIA) and an in-house oral cancer cytology dataset show that DSVDD achieves state-of-the-art performance in instance-level abnormality ranking, particularly in ultra-low witness-rate regimes ($\leq 1\%$) and, in some cases, even outperforming fully supervised learning, which is typically not a practical option in whole-slide cytology due to the infeasibility of exhaustive instance-level annotations. DROC is also competitive under extreme rarity, benefiting from distribution-augmented contrastive learning. These findings highlight one-class representation learning as a robust and interpretable superior choice to MIL for malignant cell detection under extreme rarity.