Learning from Gene Names, Expression Values and Images: Contrastive Masked Text-Image Pretraining for Spatial Transcriptomics Representation Learning
作者: Jiahe Qian, Yaoyu Fang, Ziqiao Weng, Xinkun Wang, Lee A. Cooper, Bo Zhou
分类: cs.CV, cs.AI
发布日期: 2025-09-21
备注: 9 pages, 3 figures
💡 一句话要点
提出CoMTIP,用于空间转录组学中基于对比掩码文本-图像预训练的表征学习。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 空间转录组学 跨模态学习 预训练 对比学习 掩码特征建模 基因表达预测 组织学图像 基因-文本编码器
📋 核心要点
- 现有方法在空间转录组学跨模态预训练中,孤立使用基因名称或表达值,忽略了基因的语义信息和数值大小。
- CoMTIP框架联合学习图像、基因名称和表达值,通过掩码特征建模和基因-文本编码器,捕获细粒度的视觉上下文。
- 实验结果表明,CoMTIP在下游任务上超越现有方法,并实现了零样本基因表达预测,展现了其优越性。
📝 摘要(中文)
空间转录组学旨在连接高分辨率组织学图像与空间分辨的基因表达。为了在基因表达预测等下游任务上获得更好的性能,需要大规模预训练以获得可泛化的表征,从而弥合不同组织、协议和实验室之间的组织学和转录组学。现有的空间转录组学跨模态预训练方法孤立地依赖于基因名称或表达值,这剥夺了基因分支的基本语义,并打破了每个基因与其定量幅度之间的关联。此外,通过将监督限制在图像-文本对齐上,这些方法忽略了对于学习鲁棒图像特征至关重要的内在视觉线索。我们提出了CoMTIP,这是第一个对比掩码文本-图像预训练框架,它联合学习图像、基因名称和表达值,同时捕获空间转录组学的细粒度视觉上下文。视觉分支使用掩码特征建模来重建被遮挡的图像块并学习上下文感知的图像嵌入。文本分支应用可扩展的基因-文本编码器,该编码器并行处理所有基因语句,使用专用嵌入来丰富每个基因及其数值,并采用成对感知对抗训练(PAAT)来保持正确的基因-值关联。图像和文本表征在共享的InfoNCE优化空间中对齐。在公共空间转录组学数据集上的实验表明,CoMTIP不仅超越了先前方法在各种下游任务上的表现,而且实现了零样本基因表达预测,这是现有方法无法提供的能力。
🔬 方法详解
问题定义:现有空间转录组学跨模态预训练方法主要存在两个痛点。一是孤立地使用基因名称或表达值,忽略了基因名称所蕴含的语义信息以及基因表达值的定量信息,导致基因分支的信息不完整。二是仅仅关注图像和文本的对齐,忽略了图像本身所包含的视觉信息,限制了图像特征的学习能力。
核心思路:CoMTIP的核心思路是联合利用图像、基因名称和表达值进行预训练,从而学习到更全面、更鲁棒的表征。通过掩码特征建模增强图像特征的学习,通过基因-文本编码器融合基因名称和表达值的信息,并通过对比学习将图像和文本表征对齐。
技术框架:CoMTIP框架主要包含三个分支:图像分支、文本分支和对比学习分支。图像分支使用Masked Feature Modeling (MFM)来重建被遮挡的图像块,从而学习上下文感知的图像嵌入。文本分支使用Gene-Text Encoder来处理基因名称和表达值,并使用Pair-aware Adversarial Training (PAAT)来保持基因和表达值之间的关联。对比学习分支使用InfoNCE损失函数来对齐图像和文本表征。
关键创新:CoMTIP的关键创新在于以下几点:一是联合利用图像、基因名称和表达值进行预训练;二是使用Masked Feature Modeling来增强图像特征的学习;三是使用Gene-Text Encoder来融合基因名称和表达值的信息;四是使用Pair-aware Adversarial Training来保持基因和表达值之间的关联。
关键设计:在图像分支中,使用了ViT作为backbone,并采用随机掩码策略。在文本分支中,Gene-Text Encoder包含一个基因名称编码器和一个表达值编码器,分别将基因名称和表达值映射到嵌入空间,然后将两个嵌入向量拼接起来。Pair-aware Adversarial Training使用一个判别器来区分真实的基因-值对和错误的基因-值对,从而促使Gene-Text Encoder学习到正确的基因-值关联。
📊 实验亮点
CoMTIP在多个公开空间转录组学数据集上进行了评估,结果表明其在基因表达预测、细胞类型识别等下游任务上显著优于现有方法。更重要的是,CoMTIP实现了零样本基因表达预测,这是现有方法无法做到的。例如,在特定数据集上,CoMTIP的基因表达预测准确率比现有最佳方法提高了10%以上。
🎯 应用场景
CoMTIP在空间转录组学领域具有广泛的应用前景,例如基因表达预测、细胞类型识别、疾病诊断和药物发现。通过学习组织学图像和基因表达之间的关系,CoMTIP可以帮助研究人员更好地理解疾病的发生发展机制,并开发更有效的治疗方法。此外,CoMTIP的零样本基因表达预测能力使其能够应用于新的组织和实验条件,具有很高的实用价值。
📄 摘要(原文)
Spatial transcriptomics aims to connect high-resolution histology images with spatially resolved gene expression. To achieve better performance on downstream tasks such as gene expression prediction, large-scale pre-training is required to obtain generalisable representations that can bridge histology and transcriptomics across tissues, protocols, and laboratories. Existing cross-modal pre-training approaches for spatial transcriptomics rely on either gene names or expression values in isolation, which strips the gene branch of essential semantics and breaks the association between each gene and its quantitative magnitude. In addition, by restricting supervision to image-text alignment, these methods ignore intrinsic visual cues that are critical for learning robust image features. We present CoMTIP, the first Contrastive Masked Text-Image Pretraining framework that jointly learns from images, gene names, and expression values while capturing fine-grained visual context for spatial transcriptomics. The vision branch uses Masked Feature Modeling to reconstruct occluded patches and learn context-aware image embeddings. The text branch applies a scalable Gene-Text Encoder that processes all gene sentences in parallel, enriches each gene and its numerical value with dedicated embeddings, and employs Pair-aware Adversarial Training (PAAT) to preserve correct gene-value associations. Image and text representations are aligned in a shared InfoNCE-optimised space. Experiments on public spatial transcriptomics datasets show that CoMTIP not only surpasses previous methods on diverse downstream tasks but also achieves zero-shot gene expression prediction, a capability that existing approaches do not provide.