MINT: Molecularly Informed Training with Spatial Transcriptomics Supervision for Pathology Foundation Models

作者: Minsoo Lee, Jonghyun Kim, Juseung Yun, Sunwoo Yu, Jongseong Jang

分类: cs.CV

发布日期: 2026-03-09

💡 一句话要点

MINT：利用空间转录组监督的病理学Foundation模型分子信息训练

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 病理学 Foundation模型 空间转录组 自监督学习 跨模态学习

📋 核心要点

现有病理学Foundation模型缺乏对组织分子状态的显式建模，限制了其对复杂病理特征的理解。
MINT框架通过引入空间转录组数据作为监督信号，指导模型学习形态学与分子信息的联合表征。
实验表明，MINT在基因表达预测和通用病理学任务上均取得了显著提升，验证了其有效性。

📝 摘要（中文）

病理学Foundation模型通过大规模全切片图像上的自监督预训练学习形态学表征，但并未显式捕获组织潜在的分子状态。空间转录组技术通过原位测量基因表达弥补了这一差距，提供了一种自然的跨模态监督信号。我们提出了MINT（分子信息训练），一个将空间转录组监督融入预训练病理学Vision Transformer的微调框架。MINT将一个可学习的ST token附加到ViT输入，以独立于形态学CLS token编码转录组信息，并通过DINO自蒸馏和显式特征锚定到冻结的预训练编码器来防止灾难性遗忘。在spot级别（Visium）和patch级别（Xenium）分辨率上的基因表达回归提供了跨空间尺度的互补监督。在577个公开的HEST样本上训练后，MINT在基因表达预测的HEST-Bench（平均Pearson r = 0.440）和通用病理学任务的EVA（0.803）上都实现了最佳的整体性能，表明空间转录组监督补充了以形态学为中心的自监督预训练。

🔬 方法详解

问题定义：现有病理学Foundation模型主要依赖形态学信息进行训练，忽略了组织内部的分子状态，导致模型在理解复杂病理特征时存在局限性。现有方法难以有效融合形态学和分子信息，无法充分利用空间转录组数据提供的监督信号。

核心思路：MINT的核心思路是将空间转录组数据作为监督信号，指导预训练的病理学Vision Transformer学习形态学和分子信息的联合表征。通过引入空间转录组信息，模型可以更好地理解组织内部的分子机制，从而提高在各种病理学任务中的性能。

技术框架：MINT框架主要包含以下几个模块：1) 预训练的病理学Vision Transformer (ViT) 作为 backbone；2) 一个可学习的ST token，用于编码空间转录组信息；3) DINO自蒸馏模块，用于防止微调过程中的灾难性遗忘；4) 特征锚定模块，用于将微调后的特征与预训练的特征对齐；5) 基因表达回归模块，用于预测 spot 或 patch 级别的基因表达。

关键创新：MINT的关键创新在于：1) 将空间转录组数据作为监督信号，用于微调预训练的病理学ViT；2) 引入ST token，将转录组信息与形态学信息分离，避免信息混淆；3) 采用DINO自蒸馏和特征锚定，防止灾难性遗忘，并保持预训练模型的泛化能力。

关键设计：MINT的关键设计包括：1) 使用可学习的ST token，允许模型灵活地学习转录组信息的表征；2) 使用DINO自蒸馏，通过最小化微调前后模型输出的差异，保持模型的泛化能力；3) 使用特征锚定，通过将微调后的特征与预训练的特征对齐，防止模型过度拟合到空间转录组数据；4) 使用L1损失函数进行基因表达回归，鼓励模型学习稀疏的基因表达模式。

🖼️ 关键图片

📊 实验亮点

MINT在HEST-Bench基因表达预测任务上取得了显著的性能提升，平均Pearson相关系数达到0.440，超过了现有方法。在EVA通用病理学任务上，MINT的性能也达到了0.803，表明空间转录组监督能够有效提升病理学Foundation模型的性能。实验结果验证了MINT框架的有效性和泛化能力。

🎯 应用场景

MINT具有广泛的应用前景，可用于疾病诊断、预后预测、药物研发等领域。通过整合形态学和分子信息，MINT可以更准确地识别病理特征，辅助医生进行诊断和治疗决策。此外，MINT还可以用于研究疾病的分子机制，为新药研发提供线索，并加速个性化医疗的发展。

📄 摘要（原文）

Pathology foundation models learn morphological representations through self-supervised pretraining on large-scale whole-slide images, yet they do not explicitly capture the underlying molecular state of the tissue. Spatial transcriptomics technologies bridge this gap by measuring gene expression in situ, offering a natural cross-modal supervisory signal. We propose MINT (Molecularly Informed Training), a fine-tuning framework that incorporates spatial transcriptomics supervision into pretrained pathology Vision Transformers. MINT appends a learnable ST token to the ViT input to encode transcriptomic information separately from the morphological CLS token, preventing catastrophic forgetting through DINO self-distillation and explicit feature anchoring to the frozen pretrained encoder. Gene expression regression at both spot-level (Visium) and patch-level (Xenium) resolutions provides complementary supervision across spatial scales. Trained on 577 publicly available HEST samples, MINT achieves the best overall performance on both HEST-Bench for gene expression prediction (mean Pearson r = 0.440) and EVA for general pathology tasks (0.803), demonstrating that spatial transcriptomics supervision complements morphology-centric self-supervised pretraining.

MINT: Molecularly Informed Training with Spatial Transcriptomics Supervision for Pathology Foundation Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理