Learning from Gene Names, Expression Values and Images: Contrastive Masked Text-Image Pretraining for Spatial Transcriptomics Representation Learning

作者: Jiahe Qian, Yaoyu Fang, Ziqiao Weng, Xinkun Wang, Lee A. Cooper, Bo Zhou

分类: cs.CV, cs.AI

发布日期: 2025-09-21

备注: 9 pages, 3 figures

💡 一句话要点

提出CoMTIP框架，用于空间转录组学中基于对比Masked Text-Image预训练的表征学习。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 空间转录组学 多模态学习 对比学习 Masked Feature Modeling 基因表达预测

📋 核心要点

现有方法孤立地使用基因名称或表达值，忽略了基因语义和基因-值关联，限制了表征学习。
CoMTIP框架联合学习图像、基因名称和表达值，通过对比Masked Text-Image预训练捕获细粒度视觉上下文。
实验表明，CoMTIP在下游任务上超越现有方法，并实现了零样本基因表达预测能力。

📝 摘要（中文）

空间转录组学旨在连接高分辨率组织学图像与空间分辨的基因表达。为了在基因表达预测等下游任务上获得更好的性能，需要大规模预训练以获得可泛化的表征，从而弥合不同组织、协议和实验室之间的组织学和转录组学。现有的空间转录组学跨模态预训练方法孤立地依赖于基因名称或表达值，这剥夺了基因分支的基本语义，并打破了每个基因与其定量幅度之间的关联。此外，通过将监督限制在图像-文本对齐上，这些方法忽略了对于学习鲁棒图像特征至关重要的内在视觉线索。我们提出了CoMTIP，这是第一个对比Masked Text-Image预训练框架，它联合学习图像、基因名称和表达值，同时捕获空间转录组学的细粒度视觉上下文。视觉分支使用Masked Feature Modeling来重建被遮挡的patch并学习上下文感知的图像嵌入。文本分支应用可扩展的Gene-Text编码器，该编码器并行处理所有基因句子，使用专用嵌入丰富每个基因及其数值，并采用Pair-aware Adversarial Training (PAAT)来保持正确的基因-值关联。图像和文本表征在共享的InfoNCE优化空间中对齐。在公共空间转录组学数据集上的实验表明，CoMTIP不仅超越了先前方法在各种下游任务上的表现，而且实现了零样本基因表达预测，这是现有方法无法提供的能力。

🔬 方法详解

问题定义：现有空间转录组学跨模态预训练方法主要存在两个痛点：一是孤立地使用基因名称或表达值，忽略了基因的语义信息和基因表达值之间的关联；二是仅仅关注图像-文本对齐，忽略了图像本身蕴含的视觉信息，导致学习到的图像特征不够鲁棒。因此，如何有效地融合图像、基因名称和表达值，并充分利用图像的视觉信息，是本文要解决的关键问题。

核心思路：本文的核心思路是提出一个对比Masked Text-Image预训练框架（CoMTIP），该框架能够同时学习图像、基因名称和表达值，并利用Masked Feature Modeling来学习上下文感知的图像嵌入。通过联合学习，CoMTIP能够更好地理解图像和文本之间的关系，从而提高下游任务的性能。

技术框架：CoMTIP框架主要包含三个分支：图像分支、文本分支和对比学习分支。图像分支使用Masked Feature Modeling来重建被遮挡的图像patch，从而学习上下文感知的图像嵌入。文本分支使用Gene-Text编码器来处理基因名称和表达值，并使用Pair-aware Adversarial Training (PAAT)来保持基因-值关联。对比学习分支使用InfoNCE损失函数来对齐图像和文本表征。

关键创新：CoMTIP的关键创新在于以下几点：一是提出了一个联合学习图像、基因名称和表达值的框架；二是使用了Masked Feature Modeling来学习上下文感知的图像嵌入；三是使用了Pair-aware Adversarial Training (PAAT)来保持基因-值关联；四是实现了零样本基因表达预测。

关键设计：在图像分支中，使用了ViT作为backbone，并采用Masked Feature Modeling策略，随机mask掉一部分图像patch，然后利用Transformer来重建这些被mask掉的patch。在文本分支中，使用了Gene-Text编码器，该编码器包含一个基因名称编码器和一个基因表达值编码器，分别用于处理基因名称和表达值。为了保持基因-值关联，使用了Pair-aware Adversarial Training (PAAT)策略。在对比学习分支中，使用了InfoNCE损失函数来对齐图像和文本表征。具体而言，将图像和文本的嵌入向量分别经过一个投影头，然后计算它们之间的余弦相似度，并使用InfoNCE损失函数来最大化正样本之间的相似度，最小化负样本之间的相似度。

🖼️ 关键图片

📊 实验亮点

CoMTIP在多个公共空间转录组学数据集上进行了评估，结果表明，CoMTIP在基因表达预测等下游任务上显著优于现有方法。更重要的是，CoMTIP实现了零样本基因表达预测，这是现有方法无法提供的能力。实验结果充分证明了CoMTIP的有效性和泛化能力。

🎯 应用场景

该研究成果可应用于空间转录组学领域，例如基因表达预测、细胞类型识别、疾病诊断等。通过学习组织学图像和基因表达之间的关系，可以更好地理解疾病的发生发展机制，为精准医疗提供支持。未来，该方法可以扩展到其他多模态生物数据分析任务中，例如蛋白质组学、代谢组学等。

📄 摘要（原文）

Spatial transcriptomics aims to connect high-resolution histology images with spatially resolved gene expression. To achieve better performance on downstream tasks such as gene expression prediction, large-scale pre-training is required to obtain generalisable representations that can bridge histology and transcriptomics across tissues, protocols, and laboratories. Existing cross-modal pre-training approaches for spatial transcriptomics rely on either gene names or expression values in isolation, which strips the gene branch of essential semantics and breaks the association between each gene and its quantitative magnitude. In addition, by restricting supervision to image-text alignment, these methods ignore intrinsic visual cues that are critical for learning robust image features. We present CoMTIP, the first Contrastive Masked Text-Image Pretraining framework that jointly learns from images, gene names, and expression values while capturing fine-grained visual context for spatial transcriptomics. The vision branch uses Masked Feature Modeling to reconstruct occluded patches and learn context-aware image embeddings. The text branch applies a scalable Gene-Text Encoder that processes all gene sentences in parallel, enriches each gene and its numerical value with dedicated embeddings, and employs Pair-aware Adversarial Training (PAAT) to preserve correct gene-value associations. Image and text representations are aligned in a shared InfoNCE-optimised space. Experiments on public spatial transcriptomics datasets show that CoMTIP not only surpasses previous methods on diverse downstream tasks but also achieves zero-shot gene expression prediction, a capability that existing approaches do not provide.

Learning from Gene Names, Expression Values and Images: Contrastive Masked Text-Image Pretraining for Spatial Transcriptomics Representation Learning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理