TEDDY: A Family Of Foundation Models For Understanding Single Cell Biology
作者: Alexis Chevalier, Soumya Ghosh, Urvi Awasthi, James Watkins, Julia Bieniewska, Nichita Mitrea, Olga Kotova, Kirill Shkura, Andrew Noble, Michael Steinbaugh, Julien Delile, Christoph Meier, Leonid Zhukov, Iya Khalil, Srayanta Mukherjee, Judith Mueller
分类: cs.LG, q-bio.QM
发布日期: 2025-03-05
💡 一句话要点
TEDDY:用于理解单细胞生物学的系列Transformer基础模型
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 单细胞RNA测序 基础模型 Transformer 预训练 生物注释
📋 核心要点
- 现有单细胞RNA测序基础模型在下游任务中提升有限,未能充分利用大规模生物数据。
- TEDDY模型通过扩展预训练数据集至1.16亿细胞,并利用大规模生物注释进行监督学习,显著提升性能。
- 实验表明,TEDDY模型在识别疾病状态任务上超越现有模型,验证了数据量和参数规模的重要性。
📝 摘要(中文)
理解疾病的生物学机制对于医学,特别是药物发现至关重要。基于AI的基因组规模生物数据分析在这方面具有巨大潜力。单细胞RNA测序数据的日益普及促进了用于疾病生物学的大型基础模型的发展。然而,现有的基础模型在下游应用中要么没有改进,要么仅比特定任务模型略有改进。本文探索了两种改进现有技术水平的途径。首先,我们将预训练数据集扩展到1.16亿个细胞,这比以前的模型使用的数据集更大。其次,我们利用大规模生物注释作为预训练期间的一种监督形式。我们训练了TEDDY系列模型,包括六个基于Transformer的最先进的单细胞基础模型,参数分别为7000万、1.6亿和4亿。我们在两个下游评估任务中验证了我们的模型——识别训练期间未见过的保留供体的潜在疾病状态,以及区分未见过的疾病条件和供体的健康细胞和患病细胞。缩放实验表明,性能随着数据量和参数数量的增加而可预测地提高。我们的模型在第一个任务上显示出比现有工作显着改进,而在第二个任务上的改进则较为缓和。
🔬 方法详解
问题定义:现有单细胞RNA测序基础模型在下游任务,如疾病状态识别和健康/患病细胞区分上,提升效果不明显。主要痛点在于预训练数据规模不足,且缺乏有效的监督信息,导致模型泛化能力受限。
核心思路:论文的核心思路是通过扩大预训练数据集规模,并引入大规模生物注释作为监督信号,来提升模型的表征学习能力和泛化性能。通过这种方式,模型能够更好地理解单细胞数据的复杂性和生物学意义。
技术框架:TEDDY模型采用Transformer架构,包含编码器部分。预训练阶段,模型在大规模单细胞RNA测序数据集上进行训练,同时利用生物注释信息进行监督。下游任务中,预训练好的模型可以作为特征提取器,用于疾病状态识别和健康/患病细胞区分等任务。整体流程包括数据预处理、模型预训练和下游任务微调三个主要阶段。
关键创新:论文的关键创新在于同时扩展了预训练数据规模和引入了生物注释监督。以往的研究通常只关注其中一个方面,而TEDDY模型将两者结合,实现了更好的性能。此外,TEDDY模型还探索了不同参数规模的模型对性能的影响,为后续研究提供了参考。
关键设计:TEDDY模型使用了不同参数规模的Transformer模型(70M, 160M, 400M)。预训练阶段,使用了交叉熵损失函数,并结合生物注释信息进行监督。在下游任务中,使用了微调策略,以适应特定任务的需求。具体网络结构细节和超参数设置在论文中有详细描述。
🖼️ 关键图片
📊 实验亮点
实验结果表明,TEDDY模型在疾病状态识别任务上取得了显著的性能提升,超越了现有的单细胞RNA测序基础模型。缩放实验表明,模型性能随着数据量和参数数量的增加而提高。例如,在疾病状态识别任务上,TEDDY模型相比现有模型提升了XX%(具体数值请参考论文)。这些结果验证了大规模数据和监督学习对单细胞RNA测序基础模型的重要性。
🎯 应用场景
TEDDY模型在药物发现、疾病诊断和个性化医疗等领域具有广泛的应用前景。通过准确识别疾病状态和区分健康/患病细胞,可以加速药物靶点的发现和验证,提高疾病诊断的准确性,并为患者提供更个性化的治疗方案。未来,TEDDY模型还可以与其他生物学数据(如基因组、蛋白质组数据)相结合,实现更全面的疾病理解。
📄 摘要(原文)
Understanding the biological mechanism of disease is critical for medicine, and in particular drug discovery. AI-powered analysis of genome-scale biological data hold great potential in this regard. The increasing availability of single-cell RNA sequencing data has enabled the development of large foundation models for disease biology. However, existing foundation models either do not improve or only modestly improve over task-specific models in downstream applications. Here, we explored two avenues for improving the state-of-the-art. First, we scaled the pre-training dataset to 116 million cells, which is larger than those used by previous models. Second, we leveraged the availability of large-scale biological annotations as a form of supervision during pre-training. We trained the TEDDY family of models comprising six transformer-based state-of-the-art single-cell foundation models with 70 million, 160 million, and 400 million parameters. We vetted our models on two downstream evaluation tasks -- identifying the underlying disease state of held-out donors not seen during training and distinguishing healthy cells from diseased ones for disease conditions and donors not seen during training. Scaling experiments showed that performance improved predictably with both data volume and parameter count. Our models showed substantial improvement over existing work on the first task and more muted improvements on the second.