A Multimodal Foundation Model of Spatial Transcriptomics and Histology for Biological Discovery and Clinical Prediction

📄 arXiv: 2604.03630 📥 PDF

作者: Jinxi Xiang, Siyu Hou, Yuchen Li, Ryan Quinton, Xiaoming Zhang, Feyisope Eweje, Xiangde Luo, Yijiang Chen, Zhe Li, Colin Bergstrom, Ted Kim, Sierra Willens, Francesca Maria Olguin, Matthew Abikenari, Andrew Heider, Sanjeeth Rajaram, Joel Neal, Maximilian Diehn, Xiang Zhou, Ruijiang Li

分类: cs.AI, bio.QM

发布日期: 2026-04-07


💡 一句话要点

提出STORM,一个用于生物发现和临床预测的空间转录组学和组织学多模态基础模型

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 空间转录组学 组织学 多模态学习 基础模型 临床预测

📋 核心要点

  1. 空间转录组学成本高、通量低,H&E染色缺乏分子分辨率,限制了对复杂生物过程的理解。
  2. STORM通过整合形态学特征、基因表达和空间背景,学习稳健的分子-形态学表征,弥合成像和组学之间的差距。
  3. STORM在空间域发现、基因表达预测和临床预测方面表现出色,并在多个平台和队列中验证了其有效性。

📝 摘要(中文)

空间转录组学(ST)能够在解剖学背景下进行基因表达定位,但成本高且通量低。苏木精-伊红(H&E)染色提供丰富的形态学信息,但缺乏分子分辨率。我们提出了STORM(空间转录组学和组织学表征模型),一个在120万个空间分辨转录组图谱和匹配的组织学切片上训练的基础模型,涵盖18个器官。STORM采用分层架构,整合形态学特征、基因表达和空间背景,通过稳健的分子-形态学表征连接成像和组学。STORM增强了空间域的发现,生成生物学上一致的组织图谱,并在11种肿瘤类型中,优于现有方法,实现了从H&E图像预测空间基因表达。该模型与平台无关,在Visium、Xenium、Visium HD和CosMx上表现一致。应用于包含7245名患者的23个独立队列,STORM在免疫疗法反应预测和预后方面显著优于已建立的生物标志物,为空间信息驱动的发现和临床精准医学提供了一个可扩展的框架。

🔬 方法详解

问题定义:论文旨在解决空间转录组学数据分析中成本高、通量低,以及传统H&E染色缺乏分子分辨率的问题。现有方法难以有效整合形态学信息和基因表达数据,限制了对复杂生物过程的深入理解和临床应用。

核心思路:论文的核心思路是构建一个多模态基础模型STORM,通过大规模的空间转录组学和组织学数据训练,学习到组织形态和基因表达之间的关联。这种关联能够用于从组织学图像预测基因表达,从而降低空间转录组学实验的成本,并提高分析的通量。

技术框架:STORM采用分层架构,主要包含以下模块:1) 图像编码器,用于提取H&E图像的形态学特征;2) 基因表达编码器,用于提取空间转录组数据的基因表达特征;3) 空间上下文编码器,用于整合空间位置信息;4) 多模态融合模块,将上述特征进行融合,学习分子-形态学表征。整个框架通过对比学习等方法进行训练,使得模型能够学习到组织形态和基因表达之间的对应关系。

关键创新:STORM的关键创新在于其多模态融合策略和大规模预训练。通过整合形态学、基因表达和空间上下文信息,STORM能够学习到更丰富的组织表征。此外,在大规模数据集上的预训练使得STORM具有良好的泛化能力,能够应用于不同的平台和组织类型。

关键设计:STORM使用了Transformer架构来建模基因表达和空间信息之间的关系。图像编码器可能采用了卷积神经网络(CNN)或Vision Transformer (ViT)。损失函数可能包括对比损失、重建损失等,用于约束模型学习到有意义的表征。具体的网络结构、参数设置和训练策略在论文中应该有详细描述(未知)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

STORM在11种肿瘤类型中,优于现有方法,实现了从H&E图像预测空间基因表达。在包含7245名患者的23个独立队列中,STORM在免疫疗法反应预测和预后方面显著优于已建立的生物标志物。该模型在Visium、Xenium、Visium HD和CosMx等多个平台上表现出一致的性能。

🎯 应用场景

STORM具有广泛的应用前景,包括:1) 空间域的发现和组织图谱构建;2) 从H&E图像预测基因表达,降低空间转录组学实验成本;3) 免疫疗法反应预测和预后,辅助临床决策;4) 药物研发,发现新的治疗靶点。该研究为空间信息驱动的生物发现和临床精准医学提供了一个强大的工具。

📄 摘要(原文)

Spatial transcriptomics (ST) enables gene expression mapping within anatomical context but remains costly and low-throughput. Hematoxylin and eosin (H\&E) staining offers rich morphology yet lacks molecular resolution. We present \textbf{\ours} (\textbf{S}patial \textbf{T}ranscriptomics and hist\textbf{O}logy \textbf{R}epresentation \textbf{M}odel), a foundation model trained on 1.2 million spatially resolved transcriptomic profiles with matched histology across 18 organs. Using a hierarchical architecture integrating morphological features, gene expression, and spatial context, STORM bridges imaging and omics through robust molecular--morphological representations. STORM enhances spatial domain discovery, producing biologically coherent tissue maps, and outperforms existing methods in predicting spatial gene expression from H\&E images across 11 tumor types. The model is platform-agnostic, performing consistently across Visium, Xenium, Visium HD, and CosMx. Applied to 23 independent cohorts comprising 7,245 patients, STORM significantly improves immunotherapy response prediction and prognostication over established biomarkers, providing a scalable framework for spatially informed discovery and clinical precision medicine.