CytoFM: The first cytology foundation model

作者: Vedrana Ivezić, Ashwath Radhachandran, Ekaterina Redekop, Shreeram Athreya, Dongwoo Lee, Vivek Sant, Corey Arnold, William Speier

分类: cs.CV

发布日期: 2025-04-18

💡 一句话要点

提出CytoFM，首个细胞学自监督预训练模型，提升细胞学图像分析性能。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 细胞学 自监督学习 预训练模型 Vision Transformer iBOT 迁移学习 多示例学习 癌症诊断

📋 核心要点

细胞学图像分析面临样本差异大、标注数据少等挑战，现有方法泛化性不足。
CytoFM利用iBOT框架，通过掩码图像建模和自蒸馏，学习细胞学图像的通用表征。
实验表明，CytoFM在乳腺癌分类和细胞类型识别等任务上优于现有预训练模型。

📝 摘要（中文）

细胞学检查因其微创性，在癌症诊断和筛查中至关重要。然而，由于样本染色和制备方法的多样性、器官差异以及大型多样化标注数据集的有限性，为数字细胞学开发稳健的深度学习模型极具挑战。为每个细胞学应用开发特定任务模型是不切实际的，且非细胞学专用基础模型难以泛化到侧重细胞形态的该领域任务。为了解决这些挑战，我们推出了首个细胞学自监督基础模型CytoFM。我们使用iBOT（一种结合了掩码图像建模和自蒸馏的自监督Vision Transformer (ViT) 训练框架），在多样化的细胞学数据集上对CytoFM进行预训练，以学习稳健、可迁移的表征。我们使用基于注意力的多示例学习框架，在多个下游细胞学任务（包括乳腺癌分类和细胞类型识别）上评估了CytoFM。结果表明，在三个下游任务中的两个上，CytoFM的性能优于在组织病理学（UNI）或自然图像（iBOT-Imagenet）上预训练的现有基础模型。学习到的表征可视化表明，我们的模型能够关注细胞学相关的特征。尽管预训练数据集较小，但CytoFM的有希望的结果突出了与任务无关的预训练方法从细胞学数据中学习稳健且可泛化特征的能力。

🔬 方法详解

问题定义：细胞学图像分析在癌症诊断中至关重要，但现有深度学习模型受限于细胞染色和制备方法的多样性、器官差异以及标注数据的稀缺性。为每个细胞学应用训练特定模型成本高昂且泛化能力差，而通用图像或组织病理学预训练模型难以捕捉细胞形态的细微特征。

核心思路：论文的核心思路是利用自监督学习，从大量未标注的细胞学图像中学习通用的、可迁移的细胞表征。通过预训练一个细胞学专用基础模型，可以有效解决数据稀缺和领域泛化性问题，从而提升下游任务的性能。

技术框架：CytoFM的整体框架基于iBOT，一个自监督的Vision Transformer (ViT) 训练框架。该框架包含两个主要模块：掩码图像建模（Masked Image Modeling, MIM）和自蒸馏（Self-Distillation）。MIM通过随机遮盖部分图像并预测被遮盖区域的内容，迫使模型学习图像的上下文信息。自蒸馏则利用教师网络（通常是EMA模型）生成的软标签来指导学生网络的学习，从而提高模型的鲁棒性和泛化能力。

关键创新：CytoFM的关键创新在于它是首个专门为细胞学图像设计的自监督基础模型。与通用图像或组织病理学预训练模型相比，CytoFM能够更好地捕捉细胞形态的细微特征，从而在下游细胞学任务中取得更好的性能。此外，论文还验证了iBOT框架在细胞学图像上的有效性。

关键设计：CytoFM使用Vision Transformer (ViT) 作为基础架构。在预训练阶段，采用较大的patch size（具体数值未知）进行掩码图像建模，并使用EMA（指数移动平均）更新教师网络。损失函数包括MIM损失和自蒸馏损失，具体权重比例未知。在下游任务中，使用基于注意力的多示例学习（Attention-based Multiple Instance Learning, MIL）框架进行微调。

🖼️ 关键图片

📊 实验亮点

CytoFM在乳腺癌分类和细胞类型识别等下游任务上取得了显著的性能提升，优于在组织病理学（UNI）或自然图像（iBOT-Imagenet）上预训练的现有基础模型。可视化结果表明，CytoFM能够有效关注细胞学相关的特征，证明了其学习到的表征具有良好的可解释性。即使在小规模预训练数据集上，CytoFM依然表现出强大的泛化能力。

🎯 应用场景

CytoFM可广泛应用于细胞学图像分析领域，例如癌症诊断、疾病筛查、细胞类型识别等。通过迁移学习，可以快速构建针对特定细胞学任务的深度学习模型，降低数据标注成本，提高诊断效率和准确性。该研究为开发更智能、更高效的细胞学诊断工具奠定了基础。

📄 摘要（原文）

Cytology is essential for cancer diagnostics and screening due to its minimally invasive nature. However, the development of robust deep learning models for digital cytology is challenging due to the heterogeneity in staining and preparation methods of samples, differences across organs, and the limited availability of large, diverse, annotated datasets. Developing a task-specific model for every cytology application is impractical and non-cytology-specific foundation models struggle to generalize to tasks in this domain where the emphasis is on cell morphology. To address these challenges, we introduce CytoFM, the first cytology self-supervised foundation model. Using iBOT, a self-supervised Vision Transformer (ViT) training framework incorporating masked image modeling and self-distillation, we pretrain CytoFM on a diverse collection of cytology datasets to learn robust, transferable representations. We evaluate CytoFM on multiple downstream cytology tasks, including breast cancer classification and cell type identification, using an attention-based multiple instance learning framework. Our results demonstrate that CytoFM performs better on two out of three downstream tasks than existing foundation models pretrained on histopathology (UNI) or natural images (iBOT-Imagenet). Visualizations of learned representations demonstrate our model is able to attend to cytologically relevant features. Despite a small pre-training dataset, CytoFM's promising results highlight the ability of task-agnostic pre-training approaches to learn robust and generalizable features from cytology data.

CytoFM: The first cytology foundation model

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理