SPIDER: A Comprehensive Multi-Organ Supervised Pathology Dataset and Baseline Models

📄 arXiv: 2503.02876v2 📥 PDF

作者: Dmitry Nechaev, Alexey Pchelnikov, Ekaterina Ivanova

分类: eess.IV, cs.CV

发布日期: 2025-03-04 (更新: 2025-04-07)

🔗 代码/项目: GITHUB


💡 一句话要点

SPIDER:构建多器官病理图像数据集并提出基线模型,促进AI病理学研究

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 病理图像分析 多器官数据集 深度学习 注意力机制 基线模型 计算病理学 组织病理学 Hibou-L

📋 核心要点

  1. 现有公开病理数据集在器官多样性、类别覆盖或标注质量方面存在局限性,阻碍了AI在计算病理学中的发展。
  2. SPIDER数据集通过提供多器官、高质量、专家验证的标注以及上下文patch,弥补了现有数据集的不足。
  3. 论文提出了基于Hibou-L基础模型和注意力机制的基线模型,并在SPIDER数据集上取得了state-of-the-art的性能。

📝 摘要(中文)

为了推动计算病理学中的人工智能发展,我们推出了SPIDER(Supervised Pathology Image-DEscription Repository),这是一个最大的公开可用的patch级别数据集,涵盖多种器官类型,包括皮肤、结直肠、胸部和乳腺,并为每个器官提供全面的类别覆盖。SPIDER提供由专家病理学家验证的高质量注释,并包含周围上下文patch,通过提供空间上下文来增强分类性能。除了数据集,我们还提出了在SPIDER上训练的基线模型,该模型使用Hibou-L基础模型作为特征提取器,并结合基于注意力的分类头。这些模型在多个组织类别中实现了最先进的性能,并为未来的数字病理学研究提供了强大的基准。除了patch分类,该模型还能够快速识别重要区域、量化组织指标,并为多模态方法奠定基础。数据集和训练模型均已公开,以促进研究、可重复性和AI驱动的病理学发展。

🔬 方法详解

问题定义:论文旨在解决计算病理学领域缺乏高质量、多器官、类别覆盖全面的公开数据集的问题。现有数据集的局限性阻碍了AI算法在该领域的有效应用和发展。缺乏高质量标注和上下文信息也限制了模型的性能和泛化能力。

核心思路:论文的核心思路是构建一个大规模、多器官、高质量标注的病理图像数据集SPIDER,并基于该数据集训练基线模型。通过提供丰富的训练数据和高质量的标注,促进AI算法在病理图像分析中的应用。同时,利用上下文patch提供空间信息,提升模型性能。

技术框架:SPIDER数据集包含皮肤、结直肠、胸部和乳腺四种器官的病理图像,并提供patch级别的标注。基线模型采用Hibou-L基础模型作为特征提取器,然后使用一个基于注意力机制的分类头进行分类。整体流程包括:1) 从病理图像中提取patch;2) 使用Hibou-L提取patch的特征;3) 使用注意力机制对特征进行加权;4) 使用分类头进行分类。

关键创新:论文的关键创新在于构建了SPIDER数据集,该数据集是目前公开的最大、多器官病理图像数据集之一,并提供高质量的专家验证标注。此外,利用上下文patch提供空间信息,提升了模型性能。基线模型采用Hibou-L作为特征提取器,并结合注意力机制,在多个组织类别中取得了state-of-the-art的性能。

关键设计:SPIDER数据集的标注由专家病理学家进行验证,保证了标注的质量。上下文patch的大小和数量需要根据具体任务进行调整。基线模型中注意力机制的设计需要仔细考虑,以有效利用特征之间的关系。Hibou-L模型的选择基于其在图像特征提取方面的强大能力。损失函数采用交叉熵损失函数。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文提出的基线模型在SPIDER数据集上取得了state-of-the-art的性能,证明了SPIDER数据集的价值和基线模型的有效性。具体性能数据未在摘要中给出,但强调了模型在多个组织类别中超越了现有方法,为未来的研究提供了强大的基准。

🎯 应用场景

SPIDER数据集和基线模型可广泛应用于病理图像分析领域,例如肿瘤诊断、分级和预后预测。该数据集可以促进AI算法在病理学中的应用,提高诊断效率和准确性,并为个性化医疗提供支持。未来,SPIDER可以扩展到更多器官类型和疾病,并与其他临床数据相结合,实现多模态病理分析。

📄 摘要(原文)

Advancing AI in computational pathology requires large, high-quality, and diverse datasets, yet existing public datasets are often limited in organ diversity, class coverage, or annotation quality. To bridge this gap, we introduce SPIDER (Supervised Pathology Image-DEscription Repository), the largest publicly available patch-level dataset covering multiple organ types, including Skin, Colorectal, Thorax, and Breast with comprehensive class coverage for each organ. SPIDER provides high-quality annotations verified by expert pathologists and includes surrounding context patches, which enhance classification performance by providing spatial context. Alongside the dataset, we present baseline models trained on SPIDER using the Hibou-L foundation model as a feature extractor combined with an attention-based classification head. The models achieve state-of-the-art performance across multiple tissue categories and serve as strong benchmarks for future digital pathology research. Beyond patch classification, the model enables rapid identification of significant areas, quantitative tissue metrics, and establishes a foundation for multimodal approaches. Both the dataset and trained models are publicly available to advance research, reproducibility, and AI-driven pathology development. Access them at: https://github.com/HistAI/SPIDER