MINT: Molecularly Informed Training with Spatial Transcriptomics Supervision for Pathology Foundation Models

📄 arXiv: 2603.07895v1 📥 PDF

作者: Minsoo Lee, Jonghyun Kim, Juseung Yun, Sunwoo Yu, Jongseong Jang

分类: cs.CV

发布日期: 2026-03-09


💡 一句话要点

MINT:利用空间转录组监督的病理学Foundation模型分子信息训练

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 病理学 Foundation模型 空间转录组 自监督学习 跨模态学习

📋 核心要点

  1. 现有病理学Foundation模型缺乏对组织分子状态的显式建模,限制了其对复杂病理特征的理解。
  2. MINT框架通过引入空间转录组数据作为监督信号,指导模型学习形态学与分子信息的联合表征。
  3. 实验表明,MINT在基因表达预测和通用病理学任务上均取得了显著提升,验证了其有效性。

📝 摘要(中文)

病理学Foundation模型通过大规模全切片图像上的自监督预训练学习形态学表征,但并未显式捕获组织潜在的分子状态。空间转录组技术通过原位测量基因表达弥补了这一差距,提供了一种自然的跨模态监督信号。我们提出了MINT(分子信息训练),一个将空间转录组监督融入预训练病理学Vision Transformer的微调框架。MINT将一个可学习的ST token附加到ViT输入,以独立于形态学CLS token编码转录组信息,并通过DINO自蒸馏和显式特征锚定到冻结的预训练编码器来防止灾难性遗忘。在spot级别(Visium)和patch级别(Xenium)分辨率上的基因表达回归提供了跨空间尺度的互补监督。在577个公开的HEST样本上训练后,MINT在基因表达预测的HEST-Bench(平均Pearson r = 0.440)和通用病理学任务的EVA(0.803)上都实现了最佳的整体性能,表明空间转录组监督补充了以形态学为中心的自监督预训练。

🔬 方法详解

问题定义:现有病理学Foundation模型主要依赖形态学信息进行训练,忽略了组织内部的分子状态,导致模型在理解复杂病理特征时存在局限性。现有方法难以有效融合形态学和分子信息,无法充分利用空间转录组数据提供的监督信号。

核心思路:MINT的核心思路是将空间转录组数据作为监督信号,指导预训练的病理学Vision Transformer学习形态学和分子信息的联合表征。通过引入空间转录组信息,模型可以更好地理解组织内部的分子机制,从而提高在各种病理学任务中的性能。

技术框架:MINT框架主要包含以下几个模块:1) 预训练的病理学Vision Transformer (ViT) 作为 backbone;2) 一个可学习的ST token,用于编码空间转录组信息;3) DINO自蒸馏模块,用于防止微调过程中的灾难性遗忘;4) 特征锚定模块,用于将微调后的特征与预训练的特征对齐;5) 基因表达回归模块,用于预测 spot 或 patch 级别的基因表达。

关键创新:MINT的关键创新在于:1) 将空间转录组数据作为监督信号,用于微调预训练的病理学ViT;2) 引入ST token,将转录组信息与形态学信息分离,避免信息混淆;3) 采用DINO自蒸馏和特征锚定,防止灾难性遗忘,并保持预训练模型的泛化能力。

关键设计:MINT的关键设计包括:1) 使用可学习的ST token,允许模型灵活地学习转录组信息的表征;2) 使用DINO自蒸馏,通过最小化微调前后模型输出的差异,保持模型的泛化能力;3) 使用特征锚定,通过将微调后的特征与预训练的特征对齐,防止模型过度拟合到空间转录组数据;4) 使用L1损失函数进行基因表达回归,鼓励模型学习稀疏的基因表达模式。

🖼️ 关键图片

fig_0

📊 实验亮点

MINT在HEST-Bench基因表达预测任务上取得了显著的性能提升,平均Pearson相关系数达到0.440,超过了现有方法。在EVA通用病理学任务上,MINT的性能也达到了0.803,表明空间转录组监督能够有效提升病理学Foundation模型的性能。实验结果验证了MINT框架的有效性和泛化能力。

🎯 应用场景

MINT具有广泛的应用前景,可用于疾病诊断、预后预测、药物研发等领域。通过整合形态学和分子信息,MINT可以更准确地识别病理特征,辅助医生进行诊断和治疗决策。此外,MINT还可以用于研究疾病的分子机制,为新药研发提供线索,并加速个性化医疗的发展。

📄 摘要(原文)

Pathology foundation models learn morphological representations through self-supervised pretraining on large-scale whole-slide images, yet they do not explicitly capture the underlying molecular state of the tissue. Spatial transcriptomics technologies bridge this gap by measuring gene expression in situ, offering a natural cross-modal supervisory signal. We propose MINT (Molecularly Informed Training), a fine-tuning framework that incorporates spatial transcriptomics supervision into pretrained pathology Vision Transformers. MINT appends a learnable ST token to the ViT input to encode transcriptomic information separately from the morphological CLS token, preventing catastrophic forgetting through DINO self-distillation and explicit feature anchoring to the frozen pretrained encoder. Gene expression regression at both spot-level (Visium) and patch-level (Xenium) resolutions provides complementary supervision across spatial scales. Trained on 577 publicly available HEST samples, MINT achieves the best overall performance on both HEST-Bench for gene expression prediction (mean Pearson r = 0.440) and EVA for general pathology tasks (0.803), demonstrating that spatial transcriptomics supervision complements morphology-centric self-supervised pretraining.