Integrating Single-Cell Foundation Models with Graph Neural Networks for Drug Response Prediction

📄 arXiv: 2504.14361v2 📥 PDF

作者: Till Rossner, Ziteng Li, Jonas Balke, Nikoo Salehfard, Tom Seifert, Ming Tang

分类: cs.LG, cs.CL, q-bio.QM

发布日期: 2025-04-19 (更新: 2025-05-13)

备注: 8 pages, 6 figures


💡 一句话要点

利用单细胞Foundation模型和图神经网络进行药物反应预测

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 药物反应预测 单细胞Foundation模型 图神经网络 scGPT DeepCDR 个性化癌症治疗 多组学数据

📋 核心要点

  1. 癌症异质性和数据获取成本高昂,导致药物反应预测面临挑战,现有方法难以充分利用有限的数据。
  2. 论文提出利用预训练的单细胞Foundation模型scGPT,增强细胞表示,从而提升药物反应预测的准确性和稳定性。
  3. 实验结果表明,该方法优于DeepCDR等现有方法,并在训练稳定性方面有所提升,验证了scGPT在药物反应预测中的价值。

📝 摘要(中文)

人工智能驱动的药物反应预测在推进个性化癌症治疗方面具有巨大潜力。然而,癌症的内在异质性和数据生成的高成本使得准确预测具有挑战性。本研究探讨了整合预训练的Foundation模型scGPT是否可以增强现有药物反应预测框架的性能。我们的方法建立在DeepCDR框架之上,该框架从图结构编码药物表示,并从多组学图谱编码细胞表示。我们通过利用scGPT生成丰富的细胞表示来改进该框架,利用其预训练的知识来弥补有限的数据量。我们使用IC$_{50}$值,基于Pearson相关系数(PCC)和一个留一药物验证策略来评估我们修改后的框架,并将其与原始DeepCDR框架和一个先前的基于scFoundation的方法进行比较。scGPT不仅优于以往的方法,而且表现出更大的训练稳定性,突出了在该领域利用scGPT衍生知识的价值。

🔬 方法详解

问题定义:论文旨在解决药物反应预测中,由于癌症细胞异质性和数据量不足导致的预测精度不高的问题。现有方法,如DeepCDR,虽然利用了图神经网络和多组学数据,但在数据稀缺的情况下,细胞表征学习不足,影响了预测效果。

核心思路:论文的核心思路是利用预训练的单细胞Foundation模型scGPT,学习细胞的通用表征,从而弥补数据量不足的问题。通过将scGPT学习到的知识迁移到药物反应预测任务中,可以提高细胞表征的质量,进而提升预测精度。这种方法利用了预训练模型的泛化能力,避免了从头训练模型对大量数据的依赖。

技术框架:该方法基于DeepCDR框架,主要包含以下几个模块:1) 药物表示模块:利用图神经网络(GNN)对药物的分子图结构进行编码,生成药物的向量表示。2) 细胞表示模块:利用scGPT生成细胞的向量表示,替代了DeepCDR中直接从多组学数据学习细胞表示的方法。3) 预测模块:将药物表示和细胞表示输入到一个预测模型中,预测药物对细胞的反应(IC50值)。整体流程是:输入药物分子图和细胞多组学数据,经过药物表示模块和细胞表示模块,得到药物和细胞的向量表示,最后通过预测模块得到药物反应的预测值。

关键创新:该论文的关键创新在于将单细胞Foundation模型scGPT引入到药物反应预测任务中。与以往方法直接从多组学数据学习细胞表示不同,该方法利用scGPT的预训练知识,生成更具信息量的细胞表示。这种方法充分利用了单细胞领域的先验知识,提高了细胞表示的质量,从而提升了药物反应预测的准确性。

关键设计:论文的关键设计包括:1) 使用预训练的scGPT模型,并将其输出作为细胞表示的输入。2) 将scGPT生成的细胞表示与DeepCDR框架相结合,保持了原有框架的优势。3) 使用IC$_{50}$值作为药物反应的评价指标,并采用Pearson相关系数(PCC)评估预测结果的准确性。4) 采用留一药物验证策略,评估模型的泛化能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,基于scGPT的药物反应预测方法优于原始DeepCDR框架和先前的基于scFoundation的方法。具体而言,该方法在IC$_{50}$值预测的Pearson相关系数(PCC)上取得了显著提升,并且表现出更强的训练稳定性。这些结果表明,利用scGPT的预训练知识可以有效提高药物反应预测的准确性和可靠性。

🎯 应用场景

该研究成果可应用于个性化癌症治疗,通过预测患者对不同药物的反应,辅助医生制定更有效的治疗方案。此外,该方法还可以加速新药研发,筛选潜在的候选药物,降低研发成本。未来,该方法有望扩展到其他疾病的药物反应预测,为精准医疗提供更强大的技术支持。

📄 摘要(原文)

AI-driven drug response prediction holds great promise for advancing personalized cancer treatment. However, the inherent heterogenity of cancer and high cost of data generation make accurate prediction challenging. In this study, we investigate whether incorporating the pretrained foundation model scGPT can enhance the performance of existing drug response prediction frameworks. Our approach builds on the DeepCDR framework, which encodes drug representations from graph structures and cell representations from multi-omics profiles. We adapt this framework by leveraging scGPT to generate enriched cell representations using its pretrained knowledge to compensate for limited amount of data. We evaluate our modified framework using IC$_{50}$ values on Pearson correlation coefficient (PCC) and a leave-one-drug out validation strategy, comparing it against the original DeepCDR framework and a prior scFoundation-based approach. scGPT not only outperforms previous approaches but also exhibits greater training stability, highlighting the value of leveraging scGPT-derived knowledge in this domain.