Adapting a Pre-trained Single-Cell Foundation Model to Spatial Gene Expression Generation from Histology Images

📄 arXiv: 2603.19766v1 📥 PDF

作者: Donghai Fang, Yongheng Li, Zhen Wang, Yuansong Zeng, Wenwen Min

分类: cs.CV

发布日期: 2026-03-20

备注: Accepted by CVPR 2026


💡 一句话要点

HINGE:通过组织学图像生成空间基因表达,有效利用预训练单细胞模型。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 空间转录组学 单细胞基础模型 组织学图像 基因表达生成 条件生成模型

📋 核心要点

  1. 现有方法在组织学图像生成空间基因表达时,忽略了基因间依赖关系,导致生物学一致性不足。
  2. HINGE通过SoftAdaLN将视觉信息注入预训练的单细胞模型,并结合掩码扩散目标和热启动课程,保留基因关系。
  3. 实验表明,HINGE在Pearson相关性上优于现有方法,并能生成更准确的空间标记表达模式。

📝 摘要(中文)

空间转录组学(ST)能够进行位点水平的原位表达谱分析,但其高成本和有限的通量促使人们尝试直接从HE染色的组织学图像预测基因表达。最近的研究探索了使用基于评分或流的生成模型来估计组织学图像条件下的基因表达分布,为确定性回归方法提供了一种灵活的替代方案。然而,大多数现有的生成方法忽略了基因-基因依赖关系的显式建模,从而削弱了生物学一致性。单细胞基础模型(sc-FMs)在不同的细胞群体中进行预训练,能够捕获这些组织学图像无法揭示的关键基因关系。然而,由于缺乏视觉通路、预训练目标与条件ST目标不匹配以及混合细胞ST监督的稀缺性,将仅表达的sc-FMs应用于组织学条件下的表达建模并非易事。为了解决这些挑战,我们提出了HINGE(组织学条件基因生成),它将预训练的sc-FM改造为条件表达生成器,同时主要保留其学习到的基因关系。我们通过引入SoftAdaLN来实现这一点,SoftAdaLN是一种轻量级的、身份初始化的调制,它将逐层视觉上下文注入到骨干网络中,并结合表达空间掩码扩散目标和热启动课程,以确保目标对齐和训练稳定性。在三个ST数据集上的评估表明,我们的方法在平均Pearson相关性方面优于最先进的基线,并产生更准确的空间标记表达模式和更高的成对共表达一致性,从而为调整预训练的sc-FMs以进行组织学条件下的空间表达生成建立了一条实用的途径。

🔬 方法详解

问题定义:论文旨在解决从HE染色组织学图像准确预测空间基因表达的问题。现有方法,特别是生成模型,在建模基因间的依赖关系方面存在不足,导致预测结果的生物学一致性较差。此外,直接利用预训练的单细胞基础模型(sc-FM)进行组织学图像条件下的基因表达生成面临视觉通路缺失、预训练目标不匹配以及缺乏足够监督数据等挑战。

核心思路:论文的核心思路是将预训练的单细胞基础模型(sc-FM)改造为一个条件表达生成器,同时尽可能保留其学习到的基因关系。通过引入视觉信息,使sc-FM能够根据组织学图像生成基因表达谱。同时,采用特定的训练策略来对齐预训练目标和条件生成目标,并克服数据稀缺问题。

技术框架:HINGE的整体框架包括以下几个主要模块:1) 预训练的单细胞基础模型(sc-FM):作为生成器的骨干网络,负责建模基因间的关系。2) SoftAdaLN模块:将组织学图像的视觉信息注入到sc-FM的每一层,实现视觉条件下的基因表达生成。3) 表达空间掩码扩散目标:用于指导生成器学习组织学图像条件下的基因表达分布。4) 热启动课程学习:用于稳定训练过程,并逐步调整模型以适应新的任务。

关键创新:论文的关键创新在于SoftAdaLN模块和训练策略。SoftAdaLN是一种轻量级的、身份初始化的调制模块,能够有效地将视觉信息融入到预训练的sc-FM中,而不会破坏其原有的基因关系。热启动课程学习策略则能够有效地对齐预训练目标和条件生成目标,并克服数据稀缺问题。

关键设计:SoftAdaLN模块采用逐层注入视觉上下文的方式,通过学习仿射变换参数来调整每一层的激活值。表达空间掩码扩散目标采用噪声预测的方式,通过逐步去噪来生成基因表达谱。热启动课程学习策略首先使用较小的学习率和较弱的视觉条件,然后逐步增加学习率和视觉条件的强度,以稳定训练过程。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

HINGE在三个空间转录组学数据集上进行了评估,结果表明其在平均Pearson相关性方面优于现有最先进的基线方法。此外,HINGE能够生成更准确的空间标记表达模式和更高的成对共表达一致性,表明其能够更好地捕捉基因间的依赖关系。实验结果验证了将预训练的单细胞基础模型应用于组织学条件下的空间表达生成的有效性。

🎯 应用场景

该研究成果可应用于虚拟空间转录组学,降低实验成本,加速药物发现和疾病诊断。通过组织学图像预测基因表达谱,可以更全面地了解肿瘤微环境、细胞互作等生物学过程,为精准医疗提供更可靠的依据。未来,该方法有望扩展到其他生物医学图像分析任务中。

📄 摘要(原文)

Spatial transcriptomics (ST) enables spot-level in situ expression profiling, but its high cost and limited throughput motivate predicting expression directly from HE-stained histology. Recent advances explore using score- or flow-based generative models to estimate the conditional distribution of gene expression from histology, offering a flexible alternative to deterministic regression approaches. However, most existing generative approaches omit explicit modeling of gene-gene dependencies, undermining biological coherence. Single-cell foundation models (sc-FMs), pre-trained across diverse cell populations, capture these critical gene relationships that histology alone cannot reveal. Yet, applying expression-only sc-FMs to histology-conditioned expression modeling is nontrivial due to the absence of a visual pathway, a mismatch between their pre-training and conditional ST objectives, and the scarcity of mixed-cell ST supervision. To address these challenges, we propose HINGE (HIstology-coNditioned GEneration), which retrofits a pre-trained sc-FM into a conditional expression generator while mostly preserving its learned gene relationships. We achieve this by introducing SoftAdaLN, a lightweight, identity-initialized modulation that injects layer-wise visual context into the backbone, coupled with an expression-space masked diffusion objective and a warm-start curriculum to ensure objective alignment and training stability. Evaluated on three ST datasets, ours outperforms state-of-the-art baselines on mean Pearson correlation and yields more accurate spatial marker expression patterns and higher pairwise co-expression consistency, establishing a practical route to adapt pre-trained sc-FMs for histology-conditioned spatial expression generation.