Open World Knowledge Aided Single-Cell Foundation Model with Robust Cross-Modal Cell-Language Pre-training
作者: Haoran Wang, Xuanyi Zhang, Shuangsang Fang, Longke Ran, Ziqing Deng, Yong Zhang, Yuxiang Li, Shaoshuai Li
分类: q-bio.GN, cs.AI, cs.CL, cs.LG
发布日期: 2026-01-09
备注: 41 pages
💡 一句话要点
提出OKR-CELL,利用开放世界知识增强单细胞多模态预训练,提升模型鲁棒性。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 单细胞分析 多组学 预训练模型 大型语言模型 检索增强生成 鲁棒学习 跨模态学习
📋 核心要点
- 现有单细胞基础模型在整合个体细胞深入信息和处理多模态数据噪声方面存在不足。
- OKR-CELL利用大型语言模型和检索增强生成,结合跨模态鲁棒对齐目标,提升模型性能。
- OKR-CELL在细胞聚类、细胞类型注释等任务上取得领先成果,并在多模态应用中表现出色。
📝 摘要(中文)
单细胞多组学,特别是RNA-seq的最新进展,为深入了解细胞异质性和基因调控提供了深刻的见解。虽然基于预训练语言模型(PLM)范式的单细胞基础模型显示出前景,但它们仍然受到个体特征整合不足和忽略多模态数据中噪声影响的限制。为了解决这两个问题,我们提出了一个开放世界语言知识辅助的鲁棒单细胞基础模型(OKR-CELL)。它基于跨模态细胞-语言预训练框架构建,该框架包含两个关键创新:(1)利用基于大型语言模型(LLM)的工作流程,通过检索增强生成(RAG)来丰富细胞文本描述,利用开放世界知识;(2)设计了一种跨模态鲁棒对齐(CRA)目标,该目标结合了样本可靠性评估、课程学习和耦合动量对比学习,以增强模型对噪声数据的抵抗力。在3200万个细胞-文本对上进行预训练后,OKR-CELL在6个评估任务中获得了最先进的结果。除了细胞聚类、细胞类型注释、批次效应校正和少样本注释等标准基准之外,该模型还在更广泛的多模态应用中表现出卓越的性能,包括零样本细胞类型注释和双向细胞-文本检索。
🔬 方法详解
问题定义:现有基于预训练语言模型的单细胞基础模型,在整合细胞个体的深入信息以及处理多模态数据中存在的噪声方面存在不足。具体来说,模型难以充分利用细胞的复杂特征,并且容易受到噪声数据的干扰,导致性能下降。
核心思路:OKR-CELL的核心思路是利用大型语言模型(LLM)的强大能力,结合检索增强生成(RAG)技术,从开放世界知识中获取更丰富的细胞文本描述,从而增强模型对细胞特征的理解。同时,设计跨模态鲁棒对齐(CRA)目标,通过样本可靠性评估、课程学习和耦合动量对比学习,提高模型对噪声数据的鲁棒性。
技术框架:OKR-CELL的整体框架是一个跨模态细胞-语言预训练框架。它包含以下主要模块:1) 基于LLM和RAG的细胞文本描述增强模块,用于生成更丰富的细胞文本描述;2) 跨模态编码器,用于将细胞表达谱和文本描述映射到共享的嵌入空间;3) 跨模态鲁棒对齐(CRA)模块,用于优化模型,使其对噪声数据具有更强的鲁棒性。
关键创新:最重要的技术创新点在于:1) 利用开放世界知识增强细胞文本描述,弥补了传统方法中细胞信息不足的问题;2) 提出了跨模态鲁棒对齐(CRA)目标,通过样本可靠性评估、课程学习和耦合动量对比学习,显著提高了模型对噪声数据的鲁棒性。与现有方法相比,OKR-CELL能够更有效地利用细胞特征,并减少噪声数据的影响。
关键设计:在CRA模块中,样本可靠性评估采用了一种基于一致性的方法,用于识别和降低噪声样本的权重。课程学习策略从易到难地训练模型,先关注可靠样本,再逐步引入噪声样本。耦合动量对比学习则通过维护一个动量编码器,稳定训练过程,并提高模型的泛化能力。损失函数包括对比学习损失和对齐损失,用于优化细胞表达谱和文本描述在嵌入空间的对齐。
📊 实验亮点
OKR-CELL在6个评估任务中取得了最先进的结果,包括细胞聚类、细胞类型注释、批次效应校正和少样本注释。尤其在零样本细胞类型注释和双向细胞-文本检索等更广泛的多模态应用中,表现出卓越的性能。实验结果表明,OKR-CELL能够有效利用开放世界知识,并显著提高模型对噪声数据的鲁棒性。
🎯 应用场景
该研究成果可广泛应用于单细胞生物学研究,例如细胞类型鉴定、细胞状态分析、疾病机制研究和药物开发。通过提高模型对噪声数据的鲁棒性,可以更准确地分析单细胞数据,从而为生物医学研究提供更可靠的依据。未来,该模型可以进一步扩展到其他单细胞多组学数据类型,并应用于更广泛的生物医学领域。
📄 摘要(原文)
Recent advancements in single-cell multi-omics, particularly RNA-seq, have provided profound insights into cellular heterogeneity and gene regulation. While pre-trained language model (PLM) paradigm based single-cell foundation models have shown promise, they remain constrained by insufficient integration of in-depth individual profiles and neglecting the influence of noise within multi-modal data. To address both issues, we propose an Open-world Language Knowledge-Aided Robust Single-Cell Foundation Model (OKR-CELL). It is built based on a cross-modal Cell-Language pre-training framework, which comprises two key innovations: (1) leveraging Large Language Models (LLMs) based workflow with retrieval-augmented generation (RAG) enriches cell textual descriptions using open-world knowledge; (2) devising a Cross-modal Robust Alignment (CRA) objective that incorporates sample reliability assessment, curriculum learning, and coupled momentum contrastive learning to strengthen the model's resistance to noisy data. After pretraining on 32M cell-text pairs, OKR-CELL obtains cutting-edge results across 6 evaluation tasks. Beyond standard benchmarks such as cell clustering, cell-type annotation, batch-effect correction, and few-shot annotation, the model also demonstrates superior performance in broader multi-modal applications, including zero-shot cell-type annotation and bidirectional cell-text retrieval.