Multimodal contrastive learning for spatial gene expression prediction using histology images

📄 arXiv: 2407.08216v1 📥 PDF

作者: Wenwen Min, Zhiceng Shi, Jun Zhang, Jun Wan, Changmiao Wang

分类: eess.IV, cs.AI, cs.CV, q-bio.QM

发布日期: 2024-07-11

备注: BIB, Code: https://github.com/shizhiceng/mclSTExp

🔗 代码/项目: GITHUB


💡 一句话要点

提出mclSTExp,利用多模态对比学习预测空间基因表达,提升预测精度。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 空间转录组学 多模态学习 对比学习 基因表达预测 Transformer 组织病理学图像 深度学习

📋 核心要点

  1. 现有方法未能充分利用H&E图像和空间转录组数据的多模态信息,限制了基因表达预测的准确性。
  2. mclSTExp通过Transformer融合空间上下文信息,并利用对比学习整合图像特征,提升预测能力。
  3. 在乳腺癌和皮肤鳞状细胞癌数据集上的实验表明,mclSTExp在空间基因表达预测方面表现出优越的性能。

📝 摘要(中文)

近年来,空间转录组学(ST)技术为深入研究复杂生物系统中的基因表达模式提供了前所未有的机会。然而,ST技术的高昂成本限制了其在大规模研究中的广泛应用。一种更经济有效的策略是利用人工智能,通过易于获取的苏木精-伊红(H&E)染色全切片图像(WSI)来预测基因表达水平。然而,现有方法尚未充分利用H&E图像和带有空间位置的ST数据提供的多模态信息。本文提出mclSTExp,一种结合Transformer和Densenet-121编码器的多模态对比学习方法,用于空间转录组学表达预测。我们将每个点概念化为一个“词”,通过Transformer编码器的自注意力机制将其内在特征与空间上下文相结合。通过对比学习整合图像特征进一步丰富了这种结合,从而增强了我们模型的预测能力。我们对两个乳腺癌数据集和一个皮肤鳞状细胞癌数据集进行的广泛评估表明,mclSTExp在预测空间基因表达方面表现出卓越的性能。此外,mclSTExp在解释癌症特异性过度表达基因、阐明免疫相关基因以及识别病理学家注释的专门空间域方面显示出前景。我们的源代码可在https://github.com/shizhiceng/mclSTExp获取。

🔬 方法详解

问题定义:论文旨在解决空间转录组学中,由于ST技术成本高昂,难以大规模应用的问题。现有方法在利用低成本的H&E染色全切片图像预测基因表达时,未能充分利用图像和空间转录组数据的多模态信息,导致预测精度不高。

核心思路:论文的核心思路是利用多模态对比学习,将H&E图像的视觉特征与空间转录组数据的空间上下文信息相结合,从而更准确地预测基因表达。通过将每个空间位置视为一个“词”,利用Transformer学习空间关系,并使用对比学习将图像特征与空间特征对齐。

技术框架:mclSTExp的整体框架包括以下几个主要模块:1) 使用Densenet-121提取H&E图像的视觉特征;2) 将每个空间位置视为一个“词”,并提取其内在特征;3) 使用Transformer编码器,通过自注意力机制融合空间位置的内在特征和空间上下文信息;4) 使用对比学习,将图像特征与空间特征对齐;5) 使用全连接层预测基因表达水平。

关键创新:论文的关键创新在于:1) 提出了一个多模态对比学习框架,能够有效地融合H&E图像的视觉特征和空间转录组数据的空间上下文信息;2) 将Transformer引入空间转录组学领域,用于学习空间位置之间的关系;3) 使用对比学习,将图像特征与空间特征对齐,从而提高预测精度。与现有方法相比,mclSTExp能够更充分地利用多模态信息,从而实现更准确的基因表达预测。

关键设计:在Transformer编码器中,使用了多头自注意力机制,以捕捉不同空间位置之间的复杂关系。对比学习损失函数用于拉近同一空间位置的图像特征和空间特征,并推远不同空间位置的特征。Densenet-121的预训练权重被用于初始化图像编码器,以提高特征提取的效率。具体参数设置和损失函数权重等细节在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

mclSTExp在两个乳腺癌数据集和一个皮肤鳞状细胞癌数据集上进行了评估,结果表明其在预测空间基因表达方面表现出卓越的性能。具体性能数据和对比基线在论文中有详细展示,表明mclSTExp显著优于现有方法,能够更准确地预测空间基因表达。

🎯 应用场景

该研究成果可应用于癌症研究、药物研发和精准医疗等领域。通过预测空间基因表达,可以更深入地理解肿瘤微环境,发现新的药物靶点,并为患者提供个性化的治疗方案。该方法还可以用于研究其他复杂疾病,如神经退行性疾病和自身免疫性疾病。

📄 摘要(原文)

In recent years, the advent of spatial transcriptomics (ST) technology has unlocked unprecedented opportunities for delving into the complexities of gene expression patterns within intricate biological systems. Despite its transformative potential, the prohibitive cost of ST technology remains a significant barrier to its widespread adoption in large-scale studies. An alternative, more cost-effective strategy involves employing artificial intelligence to predict gene expression levels using readily accessible whole-slide images (WSIs) stained with Hematoxylin and Eosin (H\&E). However, existing methods have yet to fully capitalize on multimodal information provided by H&E images and ST data with spatial location. In this paper, we propose \textbf{mclSTExp}, a multimodal contrastive learning with Transformer and Densenet-121 encoder for Spatial Transcriptomics Expression prediction. We conceptualize each spot as a "word", integrating its intrinsic features with spatial context through the self-attention mechanism of a Transformer encoder. This integration is further enriched by incorporating image features via contrastive learning, thereby enhancing the predictive capability of our model. Our extensive evaluation of \textbf{mclSTExp} on two breast cancer datasets and a skin squamous cell carcinoma dataset demonstrates its superior performance in predicting spatial gene expression. Moreover, mclSTExp has shown promise in interpreting cancer-specific overexpressed genes, elucidating immune-related genes, and identifying specialized spatial domains annotated by pathologists. Our source code is available at https://github.com/shizhiceng/mclSTExp.