FLAG: Foundation model representation with Latent diffusion Alignment via Graph for spatial gene expression prediction

📄 arXiv: 2605.18055v1 📥 PDF

作者: Qi Si, Penglei Wang, Yushuai Wu, Yifeng Jiao, Xuyang Liu, Xin Guo, Yuan Qi, Yuan Cheng

分类: cs.LG, cs.AI

发布日期: 2026-05-18

备注: 9 pages for main text, 3 pages for references, 19 pages for appendix. accepted by ICML 2026

🔗 代码/项目: GITHUB


💡 一句话要点

FLAG:利用图结构和潜在扩散对齐基因基础模型,预测空间基因表达

🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 空间基因表达预测 扩散模型 图神经网络 基因基础模型 结构化分布建模 基因维度诅咒 组织病理学 H&E染色

📋 核心要点

  1. 现有模型将空间基因表达预测视为孤立的点任务,忽略了基因协调和空间分布等重要生物结构。
  2. FLAG通过扩散模型将该任务重新定义为结构化分布建模,并利用图编码器和基因基础模型对齐解决“基因维度诅咒”。
  3. FLAG在传统精度上具有竞争力,并在基因-基因和基因-空间关系捕获方面显著提升了结构保真度,并通过GSC和SSC指标进行了评估。

📝 摘要(中文)

本研究提出FLAG,一个基于扩散模型的框架,用于从常规H&E图像预测空间基因表达,将其重新定义为结构化分布建模任务。FLAG通过整合空间图编码器以保证拓扑一致性,并利用基因基础模型(GFM)对齐以保证生成过程中基因-基因的保真度,从而解决了高维空间中联合建模基因表达及其空间相互作用时遇到的“基因维度诅咒”问题。为了严格评估模型性能,我们提出了一组新的结构评估指标,包括基因结构相关性(GSC)和空间结构相关性(SSC)。实验结果表明,FLAG在传统精度(PCC/MSE)方面具有很强的竞争力,同时在捕获基因-基因和基因-空间关系方面实现了显著增强的结构保真度。

🔬 方法详解

问题定义:论文旨在解决从常规H&E染色图像预测空间基因表达的问题。现有方法通常将此任务视为孤立的点预测任务,忽略了基因之间的相互作用以及基因表达的空间分布模式,导致预测结果缺乏生物学结构信息。这种忽略在高维基因表达数据中尤为突出,作者称之为“基因维度诅咒”。

核心思路:FLAG的核心思路是将空间基因表达预测问题转化为一个结构化分布建模问题,利用扩散模型学习基因表达的联合分布。通过引入空间图编码器来捕捉基因表达的空间拓扑结构,并利用基因基础模型(GFM)对齐来保证生成过程中基因-基因关系的保真度。这样可以克服传统点预测方法的局限性,更好地保留基因表达的生物学结构信息。

技术框架:FLAG框架主要包含以下几个模块:1) 空间图编码器:用于提取H&E图像中细胞的空间拓扑结构信息,构建空间图表示。2) 基因基础模型(GFM):预训练的基因表达模型,用于提供基因-基因关系的先验知识。3) 潜在扩散模型:以空间图表示和GFM信息为条件,生成空间基因表达分布。4) 对齐模块:将扩散模型生成的基因表达与GFM进行对齐,保证基因-基因关系的保真度。

关键创新:FLAG的关键创新在于:1) 将空间基因表达预测问题重新定义为结构化分布建模问题。2) 提出了利用空间图编码器和基因基础模型对齐来解决“基因维度诅咒”的方法。3) 设计了新的结构评估指标GSC和SSC,用于评估模型在捕获基因-基因和基因-空间关系方面的能力。

关键设计:空间图编码器使用图卷积网络(GCN)或图注意力网络(GAT)提取空间拓扑信息。基因基础模型可以是预训练的基因表达预测模型,例如基于Transformer的模型。扩散模型采用U-Net结构,以空间图表示和GFM信息为条件进行噪声预测。对齐模块使用对比学习损失或KL散度损失来对齐生成结果和GFM的输出。GSC和SSC指标分别计算预测基因表达和真实基因表达在基因-基因和基因-空间关系上的相关性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

FLAG在传统精度指标(PCC/MSE)上表现出竞争力,并在结构保真度方面取得了显著提升。通过GSC和SSC指标的评估,FLAG在捕获基因-基因和基因-空间关系方面优于现有方法。具体提升幅度未知,但论文强调了结构保真度方面的显著增强。

🎯 应用场景

FLAG的研究成果可应用于大规模分子图谱构建、疾病诊断和预后预测、药物研发等领域。通过从常规病理图像预测空间基因表达,可以降低分子分析的成本和时间,加速生物医学研究的进程。此外,FLAG还可以用于研究基因表达与细胞空间分布之间的关系,为理解疾病发生发展机制提供新的视角。

📄 摘要(原文)

Predicting spatial gene expression from routine H\&E enables large-scale molecular profiling, yet current models treat this as isolated pointwise tasks, thereby overlooking essential biological structures like gene coordination and spatial distribution. To preserve these relationships, we introduce \textbf{FLAG}, a diffusion-based framework that redefines this task as structured distribution modeling. At the same time, we identify the critical \textbf{Gene Dimension Curse}, where joint modeling gene expression and their spatial interactions fail in high-dimensional spaces, and FLAG solves this challenge by integrating a spatial graph encoder for topological consistency and utilizing Gene Foundation Model (GFM) alignment for gene-gene fidelity in the generation process. To rigorously assess model performance, we propose a set of novel structural evaluation metrics, including Gene Structural Correlation (\textbf{GSC}) and Spatial Structural Correlation (\textbf{SSC}). Our experiments demonstrate that FLAG is highly competitive in traditional accuracy (PCC/MSE) while achieving significantly enhanced structural fidelity in capturing both gene-gene and gene-spatial relationships. The code is available at https://github.com/darkflash03/FLAG.