Needle in a Haystack -- One-Class Representation Learning for Detecting Rare Malignant Cells in Computational Cytology
作者: Swarnadip Chatterjee, Vladimir Basic, Arrigo Capitanio, Orcun Goksel, Joakim Lindblad
分类: cs.CV, cs.LG
发布日期: 2026-04-09
备注: 15 pages, 7 figures
💡 一句话要点
提出基于One-Class Representation Learning的罕见恶性细胞检测方法,解决计算细胞学中极度不平衡问题。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: One-Class Representation Learning 罕见恶性细胞检测 计算细胞学 异常检测 深度学习 DSVDD DROC
📋 核心要点
- 传统MIL方法在极低见证率下难以泛化到实例级别,限制了其在罕见恶性细胞检测中的应用。
- 利用One-Class Representation Learning,仅使用阴性样本学习正常细胞的紧凑表示,从而检测异常细胞。
- 实验表明,DSVDD在超低见证率下表现出色,甚至超越了需要大量标注的完全监督学习方法。
📝 摘要(中文)
在计算细胞学中,由于恶性细胞形态多样且在大量正常细胞背景下极其罕见,因此在全切片图像上检测恶性肿瘤非常困难。由于类别严重不平衡和有限的标注,准确检测这些极其罕见的恶性细胞仍然具有挑战性。传统的弱监督方法,如多示例学习(MIL),通常无法在实例级别泛化,尤其是在恶性细胞比例(见证率)极低时。本研究探索了使用One-Class Representation Learning技术来检测低见证率场景中的恶性细胞。这些方法仅在slide-negative patches上进行训练,无需任何实例级别的监督。具体来说,我们评估了两种OCC方法,DSVDD和DROC,并将它们与FS-SIL、WS-SIL和最近的ItS2CLR方法进行比较。One-Class方法学习正常细胞的紧凑表示,并在测试时检测偏差。在公开的骨髓细胞形态学数据集(TCIA)和内部的口腔癌细胞学数据集上的实验表明,DSVDD在实例级别的异常排名中实现了最先进的性能,尤其是在超低见证率(≤1%)的情况下,甚至在某些情况下优于完全监督学习,而完全监督学习通常在全切片细胞学中是不切实际的,因为它无法进行详尽的实例级别注释。DROC在极端稀有情况下也具有竞争力,这得益于分布增强的对比学习。这些发现突出了One-Class Representation Learning作为一种稳健且可解释的优越选择,可以替代MIL用于极端稀有情况下的恶性细胞检测。
🔬 方法详解
问题定义:论文旨在解决计算细胞学中罕见恶性细胞检测的问题。现有方法,特别是多示例学习(MIL),在恶性细胞比例极低的情况下,难以准确识别单个恶性细胞,因为它们容易受到正常细胞的影响,无法很好地泛化到实例级别。此外,全切片图像的实例级别标注成本高昂,使得完全监督学习不切实际。
核心思路:论文的核心思路是利用One-Class Representation Learning(OCC),即只使用正常细胞的样本进行训练,学习正常细胞的特征表示。通过这种方式,模型可以学习到正常细胞的紧凑表示,并在测试时将与正常细胞差异较大的细胞识别为恶性细胞。这种方法避免了对恶性细胞的标注需求,适用于罕见恶性细胞检测的场景。
技术框架:整体框架包括以下步骤:1) 数据预处理:从全切片图像中提取细胞图像块(patches)。2) 模型训练:使用One-Class Representation Learning方法(如DSVDD和DROC)在仅包含正常细胞的图像块上训练模型。3) 异常检测:对于新的细胞图像块,使用训练好的模型计算其异常分数。4) 异常排名:根据异常分数对细胞进行排名,从而识别潜在的恶性细胞。
关键创新:论文的关键创新在于将One-Class Representation Learning应用于罕见恶性细胞检测。与传统的MIL方法相比,OCC方法不需要恶性细胞的标注,并且能够更好地学习正常细胞的特征表示,从而更准确地检测异常细胞。此外,论文还探索了两种不同的OCC方法(DSVDD和DROC),并比较了它们在罕见恶性细胞检测中的性能。
关键设计:论文评估了两种One-Class Representation Learning方法:DSVDD和DROC。DSVDD旨在学习一个包含所有正常细胞的最小体积超球面。DROC则使用分布增强的对比学习,通过对比正常细胞和人工生成的异常细胞来学习正常细胞的特征表示。实验中,论文使用了标准的损失函数和网络结构,并针对特定的数据集进行了参数调整。
🖼️ 关键图片
📊 实验亮点
实验结果表明,DSVDD在超低见证率(≤1%)下,在实例级别的异常排名中取得了最先进的性能,甚至在某些情况下优于完全监督学习。DROC在极端稀有情况下也表现出竞争力,证明了One-Class Representation Learning在罕见恶性细胞检测中的有效性。在TCIA骨髓细胞数据集和内部口腔癌细胞数据集上均验证了方法的优越性。
🎯 应用场景
该研究成果可应用于计算细胞学、病理学等领域,辅助医生进行癌症诊断和预后评估。通过自动检测罕见恶性细胞,可以提高诊断效率和准确性,减少漏诊和误诊,从而改善患者的治疗效果。该方法尤其适用于大规模细胞学筛查,降低人工阅片的负担。
📄 摘要(原文)
In computational cytology, detecting malignancy on whole-slide images is difficult because malignant cells are morphologically diverse yet vanishingly rare amid a vast background of normal cells. Accurate detection of these extremely rare malignant cells remains challenging due to large class imbalance and limited annotations. Conventional weakly supervised approaches, such as multiple instance learning (MIL), often fail to generalize at the instance level, especially when the fraction of malignant cells (witness rate) is exceedingly low. In this study, we explore the use of one-class representation learning techniques for detecting malignant cells in low-witness-rate scenarios. These methods are trained exclusively on slide-negative patches, without requiring any instance-level supervision. Specifically, we evaluate two OCC approaches, DSVDD and DROC, and compare them with FS-SIL, WS-SIL, and the recent ItS2CLR method. The one-class methods learn compact representations of normality and detect deviations at test time. Experiments on a publicly available bone marrow cytomorphology dataset (TCIA) and an in-house oral cancer cytology dataset show that DSVDD achieves state-of-the-art performance in instance-level abnormality ranking, particularly in ultra-low witness-rate regimes ($\leq 1\%$) and, in some cases, even outperforming fully supervised learning, which is typically not a practical option in whole-slide cytology due to the infeasibility of exhaustive instance-level annotations. DROC is also competitive under extreme rarity, benefiting from distribution-augmented contrastive learning. These findings highlight one-class representation learning as a robust and interpretable superior choice to MIL for malignant cell detection under extreme rarity.