Bridging Large Language Models and Single-Cell Transcriptomics in Dissecting Selective Motor Neuron Vulnerability

📄 arXiv: 2505.07896v1 📥 PDF

作者: Douglas Jiang, Zilin Dai, Luxuan Zhang, Qiyi Yu, Haoqi Sun, Feng Tian

分类: q-bio.GN, cs.AI

发布日期: 2025-05-12


💡 一句话要点

利用大语言模型桥接单细胞转录组学,解析选择性运动神经元脆弱性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 单细胞转录组学 大语言模型 细胞嵌入 基因注释 运动神经元 细胞类型聚类 细胞脆弱性 生物信息学

📋 核心要点

  1. 单细胞测序数据分析面临细胞身份和功能理解的挑战,现有方法难以有效整合生物学背景知识。
  2. 该方法利用基因表达谱和NCBI Gene数据库的文本描述,通过大语言模型生成富含生物学信息的细胞嵌入。
  3. 实验表明,该方法能够提升细胞类型聚类、细胞脆弱性分析和轨迹推断等下游任务的性能。

📝 摘要(中文)

本文提出了一种新颖的框架,利用NCBI Gene数据库中基因特异性的文本注释,生成具有生物学背景的细胞嵌入。对于单细胞RNA测序(scRNA-seq)数据集中的每个细胞,该框架首先根据基因表达水平对基因进行排序,然后检索其NCBI Gene描述,并使用大语言模型(LLMs)将这些描述转换为向量嵌入表示。所使用的模型包括OpenAI的text-embedding-ada-002、text-embedding-3-small和text-embedding-3-large (2024年1月),以及领域特定的模型BioBERT和SciBERT。通过对每个细胞中表达量最高的N个基因进行表达加权平均,计算嵌入向量,从而提供紧凑且语义丰富的表示。这种多模态策略将结构化的生物学数据与最先进的语言建模相结合,从而实现更易于解释的下游应用,如细胞类型聚类、细胞脆弱性剖析和轨迹推断。

🔬 方法详解

问题定义:单细胞RNA测序(scRNA-seq)数据分析旨在理解细胞的身份和功能。然而,现有方法在整合基因表达数据与丰富的生物学背景知识(如基因功能描述)方面存在不足,导致细胞表征的生物学意义不够明确,限制了下游分析的准确性和可解释性。特别是在研究选择性运动神经元脆弱性等复杂生物学问题时,更需要深入理解细胞的生物学特性。

核心思路:该论文的核心思路是将基因表达数据与基因的文本描述信息相结合,利用大语言模型(LLMs)学习细胞的语义嵌入表示。通过将每个细胞中高表达基因的文本描述转换为向量嵌入,并进行加权平均,从而获得既能反映基因表达水平,又能体现基因生物学功能的细胞表征。这种方法旨在弥合基因表达数据和生物学知识之间的差距,提升细胞表征的生物学意义。

技术框架:该框架主要包含以下几个步骤:1) 对scRNA-seq数据进行预处理,获得每个细胞的基因表达谱;2) 对每个细胞,根据基因表达水平对基因进行排序,选择表达量最高的N个基因;3) 检索这些基因在NCBI Gene数据库中的文本描述;4) 使用大语言模型(如OpenAI的text-embedding-ada-002、BioBERT等)将基因描述转换为向量嵌入;5) 对每个细胞,将N个基因的嵌入向量进行表达加权平均,得到该细胞的嵌入表示。最终,利用这些细胞嵌入进行下游分析,如细胞类型聚类、细胞脆弱性剖析和轨迹推断。

关键创新:该方法最重要的技术创新点在于将大语言模型应用于单细胞转录组学数据分析,并利用基因的文本描述信息来增强细胞表征的生物学意义。与传统的基于基因表达谱的细胞表征方法相比,该方法能够更有效地整合生物学知识,从而提升下游分析的准确性和可解释性。此外,该方法还探索了不同的大语言模型(通用型和领域特定型)对细胞表征的影响。

关键设计:关键设计包括:1) 选择表达量最高的N个基因,N的取值会影响细胞表征的精度和计算复杂度;2) 使用表达量作为权重进行加权平均,以突出高表达基因对细胞表征的贡献;3) 探索不同的预训练语言模型,例如通用型的text-embedding-ada-002和生物医学领域特定的BioBERT和SciBERT,以评估不同模型对下游任务的影响。论文中可能还涉及超参数的调整,例如学习率、batch size等,但摘要中未提及。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

摘要中未提供具体的实验结果和性能数据。但可以推断,实验可能对比了不同大语言模型(如text-embedding-ada-002、BioBERT、SciBERT)在细胞类型聚类、细胞脆弱性剖析和轨迹推断等任务上的性能,并验证了该方法相比传统方法的提升效果。具体的性能指标可能包括聚类准确率、轨迹推断的准确性等。

🎯 应用场景

该研究成果可广泛应用于单细胞生物学研究,例如细胞类型鉴定、细胞状态分析、疾病机制研究和药物靶点发现。特别是在神经退行性疾病研究中,该方法有望帮助揭示选择性神经元脆弱性的分子机制,为开发新的治疗策略提供线索。此外,该方法还可以扩展到其他组学数据类型,例如单细胞ATAC-seq和单细胞蛋白质组学。

📄 摘要(原文)

Understanding cell identity and function through single-cell level sequencing data remains a key challenge in computational biology. We present a novel framework that leverages gene-specific textual annotations from the NCBI Gene database to generate biologically contextualized cell embeddings. For each cell in a single-cell RNA sequencing (scRNA-seq) dataset, we rank genes by expression level, retrieve their NCBI Gene descriptions, and transform these descriptions into vector embedding representations using large language models (LLMs). The models used include OpenAI text-embedding-ada-002, text-embedding-3-small, and text-embedding-3-large (Jan 2024), as well as domain-specific models BioBERT and SciBERT. Embeddings are computed via an expression-weighted average across the top N most highly expressed genes in each cell, providing a compact, semantically rich representation. This multimodal strategy bridges structured biological data with state-of-the-art language modeling, enabling more interpretable downstream applications such as cell-type clustering, cell vulnerability dissection, and trajectory inference.