From Linear Probing to Joint-Weighted Token Hierarchy: A Foundation Model Bridging Global and Cellular Representations in Biomarker Detection

📄 arXiv: 2511.05150v1 📥 PDF

作者: Jingsong Liu, Han Li, Nassir Navab, Peter J. Schüffler

分类: cs.CV, cs.AI

发布日期: 2025-11-07


💡 一句话要点

提出JWTH模型,融合全局与细胞表征,提升AI病理标志物检测性能

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 病理学基础模型 生物标志物检测 自监督学习 细胞形态学 注意力机制

📋 核心要点

  1. 现有病理学基础模型侧重全局patch嵌入,忽略了细胞形态,限制了生物标志物检测的精度和可解释性。
  2. JWTH模型融合大规模自监督预训练与细胞中心微调,通过注意力池化整合局部和全局信息。
  3. 实验表明,JWTH在多个生物标志物检测任务中显著提升了平衡准确率,增强了模型的鲁棒性。

📝 摘要(中文)

本研究提出了一种新的病理学基础模型(PFM)——联合加权Token层级(JWTH),用于AI辅助的生物标志物检测。现有PFM主要依赖于全局的patch级别嵌入,忽略了细胞级别的形态信息。JWTH通过大规模自监督预训练和以细胞为中心的后微调,并结合注意力池化,融合局部和全局的tokens。在涉及四个生物标志物和八个队列的四个任务中,JWTH的平衡准确率比之前的PFM提高了8.3%,平均提高了1.2%。该模型在数字病理学中实现了更具可解释性和鲁棒性的AI生物标志物检测。

🔬 方法详解

问题定义:现有基于AI的生物标志物检测方法,特别是病理学基础模型(PFM),主要依赖于从组织病理学H&E染色切片中提取的全局patch级别嵌入。这种方法忽略了细胞级别的形态学信息,而这些信息对于准确识别和理解生物标志物至关重要。因此,现有方法在精度、可解释性和鲁棒性方面存在局限性。

核心思路:JWTH的核心思路是将全局的patch级别信息与局部的细胞级别信息相结合,从而更全面地捕捉组织病理学图像的特征。通过融合全局上下文和局部细胞形态,模型能够更准确地推断分子特征,并提高生物标志物检测的性能。这种设计旨在弥补现有PFM只关注全局信息的不足。

技术框架:JWTH模型的技术框架主要包括三个阶段:1) 大规模自监督预训练:利用大量的未标记H&E染色切片进行预训练,学习通用的病理学特征表示。2) 以细胞为中心的后微调:在细胞级别的标注数据上进行微调,使模型能够更好地捕捉细胞形态信息。3) 注意力池化:使用注意力机制融合局部(细胞)和全局(patch)的tokens,生成最终的图像表示。

关键创新:JWTH的关键创新在于其联合加权Token层级结构,能够有效地融合全局和局部的特征表示。与传统的只关注全局信息的PFM相比,JWTH能够更好地利用细胞级别的形态学信息,从而提高生物标志物检测的性能。此外,注意力池化的使用也使得模型能够自适应地选择重要的tokens,进一步提升了模型的表达能力。

关键设计:JWTH的具体实现细节包括:1) 使用Transformer架构作为基础模型,用于学习图像的特征表示。2) 在预训练阶段,采用对比学习等自监督学习方法,学习图像的通用特征。3) 在后微调阶段,使用交叉熵损失函数等监督学习方法,优化模型在细胞级别任务上的性能。4) 注意力池化模块使用可学习的权重,根据tokens的重要性进行加权融合。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

JWTH模型在四个生物标志物和八个队列的实验中表现出色,相较于之前的PFM,平衡准确率最高提升了8.3%,平均提升了1.2%。这些结果表明,JWTH能够有效地融合全局和局部的特征表示,从而显著提高生物标志物检测的性能。实验结果验证了JWTH在数字病理学中的有效性和优越性。

🎯 应用场景

JWTH模型在数字病理学领域具有广泛的应用前景,可用于多种生物标志物的自动检测和诊断,辅助病理学家进行更准确、高效的疾病诊断和预后评估。该模型还可应用于药物研发,加速新药筛选和临床试验设计。未来,JWTH有望成为精准医疗的重要工具,为患者提供个性化的治疗方案。

📄 摘要(原文)

AI-based biomarkers can infer molecular features directly from hematoxylin & eosin (H&E) slides, yet most pathology foundation models (PFMs) rely on global patch-level embeddings and overlook cell-level morphology. We present a PFM model, JWTH (Joint-Weighted Token Hierarchy), which integrates large-scale self-supervised pretraining with cell-centric post-tuning and attention pooling to fuse local and global tokens. Across four tasks involving four biomarkers and eight cohorts, JWTH achieves up to 8.3% higher balanced accuracy and 1.2% average improvement over prior PFMs, advancing interpretable and robust AI-based biomarker detection in digital pathology.