Evaluating Cell AI Foundation Models in Kidney Pathology with Human-in-the-Loop Enrichment

📄 arXiv: 2411.00078v2 📥 PDF

作者: Junlin Guo, Siqi Lu, Can Cui, Ruining Deng, Tianyuan Yao, Zhewen Tao, Yizhe Lin, Marilyn Lionts, Quan Liu, Juming Xiong, Yu Wang, Shilin Zhao, Catie Chang, Mitchell Wilkes, Mengmeng Yin, Haichun Yang, Yuankai Huo

分类: cs.CV, cs.AI, eess.IV

发布日期: 2024-10-31 (更新: 2025-11-09)


💡 一句话要点

利用人机协同数据增强评估细胞AI基础模型在肾脏病理分割中的性能

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 细胞分割 AI基础模型 肾脏病理 人机协同 数据增强 迁移学习 全切片图像 病理诊断

📋 核心要点

  1. 现有细胞AI基础模型在数字病理领域应用广泛,但在简单任务(如肾脏细胞核分割)上的性能仍不确定。
  2. 提出人机协同的数据增强策略,通过融合不同模型预测并结合人工干预,提升模型性能并减少人工标注需求。
  3. 实验表明,使用增强数据微调后,Cellpose、StarDist和CellViT等模型性能均得到提升,为细胞分割任务提供新基准。

📝 摘要(中文)

本研究旨在评估细胞AI基础模型在肾脏病理图像细胞核分割任务中的性能,并探索人机协同的数据增强策略以提升模型性能。研究者首先构建了一个包含来自多个中心、多种疾病和多个物种的2542张肾脏全切片图像(WSI)的外部测试数据集。然后,选取了Cellpose、StarDist和CellViT三个最先进的(SOTA)细胞基础模型进行评估。为了进一步提升模型性能,研究者开发了一种人机协同的数据增强框架,通过从不同基础模型中提取预测结果,并结合人工干预,以最小化像素级人工标注的需求。实验结果表明,通过使用增强数据进行微调,所有三个基础模型都优于其基线。有趣的是,F1得分最高的基线模型在微调后并没有产生最佳的分割结果。这项研究为细胞视觉基础模型的开发和部署建立了一个基准,使其能够更好地适应真实世界的数据应用。

🔬 方法详解

问题定义:论文旨在评估现有细胞AI基础模型在肾脏病理图像细胞核分割任务中的性能,并探索如何利用有限的人工标注来提升这些模型的性能。现有方法通常需要大量的像素级标注,成本高昂,且模型在多中心、多疾病、多物种的数据集上的泛化能力有待验证。

核心思路:论文的核心思路是利用人机协同的方式进行数据增强。首先,利用多个预训练的细胞分割基础模型进行初步预测,然后让人工专家对这些预测结果进行校正和补充,从而生成高质量的训练数据。这种方法旨在减少对大量像素级标注的依赖,并提高模型的泛化能力。

技术框架:整体框架包含以下几个主要阶段:1) 数据收集:构建包含多中心、多疾病、多物种的肾脏WSI数据集;2) 基础模型预测:使用Cellpose、StarDist和CellViT等基础模型对WSI进行细胞核分割预测;3) 人工协同数据增强:人工专家对基础模型的预测结果进行校正和补充,生成增强的训练数据集;4) 模型微调:使用增强的数据集对基础模型进行微调;5) 性能评估:在独立的测试集上评估微调后模型的性能。

关键创新:论文的关键创新在于提出了一种人机协同的数据增强框架,该框架能够有效地利用有限的人工标注来提升细胞分割模型的性能。与传统的完全依赖人工标注的方法相比,该框架能够显著降低标注成本,并提高模型的泛化能力。此外,论文还发现,初始性能最好的模型在经过微调后不一定能达到最佳性能,这表明模型选择和微调策略的重要性。

关键设计:在数据增强阶段,论文采用了一种基于模型预测融合和人工校正的方法。具体来说,首先使用多个基础模型进行预测,然后让人工专家对这些预测结果进行投票或加权平均,从而生成更准确的分割结果。此外,论文还探索了不同的微调策略,例如,使用不同的学习率、优化器和损失函数等,以找到最佳的微调方案。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,通过人机协同数据增强和微调,Cellpose、StarDist和CellViT等细胞分割基础模型在肾脏病理图像上的分割性能均得到显著提升。研究发现,即使初始F1得分最高的模型,在微调后也未必能达到最佳分割效果,强调了微调策略的重要性。该研究为细胞视觉基础模型在真实病理数据上的应用提供了一个新的基准。

🎯 应用场景

该研究成果可应用于肾脏病理图像分析、细胞分割、疾病诊断等领域。通过人机协同的数据增强方法,可以降低标注成本,提高模型在多中心、多疾病、多物种数据集上的泛化能力,加速病理诊断流程,并为个性化医疗提供支持。未来可扩展到其他器官和疾病的病理图像分析。

📄 摘要(原文)

Training AI foundation models has emerged as a promising large-scale learning approach for addressing real-world healthcare challenges, including digital pathology. While many of these models have been developed for tasks like disease diagnosis and tissue quantification using extensive and diverse training datasets, their readiness for deployment on some arguably simplest tasks, such as nuclei segmentation within a single organ (e.g., the kidney), remains uncertain. This paper seeks to answer this key question, "How good are we?", by thoroughly evaluating the performance of recent cell foundation models on a curated multi-center, multi-disease, and multi-species external testing dataset. Additionally, we tackle a more challenging question, "How can we improve?", by developing and assessing human-in-the-loop data enrichment strategies aimed at enhancing model performance while minimizing the reliance on pixel-level human annotation. To address the first question, we curated a multicenter, multidisease, and multispecies dataset consisting of 2,542 kidney whole slide images (WSIs). Three state-of-the-art (SOTA) cell foundation models-Cellpose, StarDist, and CellViT-were selected for evaluation. To tackle the second question, we explored data enrichment algorithms by distilling predictions from the different foundation models with a human-in-the-loop framework, aiming to further enhance foundation model performance with minimal human efforts. Our experimental results showed that all three foundation models improved over their baselines with model fine-tuning with enriched data. Interestingly, the baseline model with the highest F1 score does not yield the best segmentation outcomes after fine-tuning. This study establishes a benchmark for the development and deployment of cell vision foundation models tailored for real-world data applications.