OmicsLM: A Multimodal Large Language Model for Multi-Sample Omics Reasoning
作者: Maciej Sypetkowski, Joanna Krawczyk, Łukasz Smoliński, Remigiusz Kinas, Przemysław Pietrzak, Tomasz Jetka, Rafał Powalski
分类: q-bio.GN, cs.AI, q-bio.CB
发布日期: 2026-05-07
备注: 13 pages (main text), 14 pages (appendix), 1 figure, 10 tables
💡 一句话要点
提出多模态大语言模型OmicsLM,实现转录组定量数据与自然语言生物学推理的深度融合。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态大语言模型 转录组学 生物信息学 指令微调 多样本推理 生物医学人工智能
📋 核心要点
- 现有模型难以兼顾定量组学数据的处理与自然语言的逻辑推理,导致生物学解释与数据分析脱节。
- OmicsLM通过将转录组特征映射为LLM上下文中的连续向量,实现了定量数据与文本指令的统一建模。
- 实验证明OmicsLM在多样本生物学推理任务中表现优异,并填补了语言引导组学分析的基准测试空白。
📝 摘要(中文)
转录组数据解释是现代生物学的核心任务。然而,现有模型要么仅处理表达谱而缺乏自然语言解释能力,要么仅进行文本推理而无法直接获取定量组学测量值。本文提出了OmicsLM,这是一个将定量组学特征与自然语言生物学任务相结合的多模态大语言模型。OmicsLM将每个转录组特征表示为LLM上下文中的紧凑连续向量,在保留定量表达信号的同时,支持自然语言指令、基因提及及多样本交错处理。模型在超过550万个指令遵循示例上进行训练,涵盖细胞类型注释、扰动预测、临床预测及通路推理等70多种任务。此外,本文还引入了GEO-OmicsQA基准测试,用于评估基于真实表达谱的多样本生物学推理能力。实验表明,OmicsLM在组学任务上表现优于专业模型,并在语言引导的生物学推理方面显著超越通用LLM。
🔬 方法详解
问题定义:现有生物信息学模型通常局限于单一模态,无法将高维的定量转录组表达谱与自然语言的生物学知识库有效整合,导致在复杂生物学问题(如多样本对比分析、临床预测)中缺乏可解释性。
核心思路:将转录组表达谱视为一种特殊的“模态”,通过投影层将其转化为LLM可理解的连续向量序列,使模型能够像处理文本Token一样处理组学数据,从而实现定量数据与自然语言的端到端联合推理。
技术框架:OmicsLM采用多模态架构,包含一个专门的组学编码器(Omics Encoder)将表达谱转化为嵌入向量,并将其注入LLM的上下文窗口中。模型通过指令微调(Instruction Tuning)方式,将实验数据、基因注释与自由文本知识进行对齐训练。
关键创新:引入了跨模态的连续表示接口,允许模型在同一上下文内同时处理多个生物样本的定量特征与自然语言指令,实现了对组学数据进行“对话式”分析的范式转变。
关键设计:模型在超过550万个指令遵循示例上进行了大规模训练,涵盖了70多种任务类型,并构建了GEO-OmicsQA基准,确保模型在处理真实GEO数据库数据时具备鲁棒的推理能力。
🖼️ 关键图片
📊 实验亮点
OmicsLM在多项基准测试中表现卓越:在定量组学任务上,其性能与领域专用模型持平;在语言引导的生物学推理任务中,OmicsLM显著超越了通用大语言模型及现有组学模型。此外,通过引入GEO-OmicsQA基准,该研究首次量化了模型在真实多样本表达谱上的复杂推理能力。
🎯 应用场景
OmicsLM在生物医学研究中具有广泛应用潜力,包括自动化细胞类型注释、药物扰动效应预测、临床诊断辅助及复杂生物通路分析。它能显著降低生物信息学分析门槛,使研究人员能够通过自然语言直接查询和解释大规模转录组数据,加速精准医疗与药物研发进程。
📄 摘要(原文)
Interpreting transcriptomic data is one of the most common analytical tasks in modern biology. Yet most current models either consume expression profiles without producing natural-language biological explanations, or reason in language without direct access to quantitative omics measurements. We introduce OmicsLM, a multimodal LLM that connects quantitative omics profiles with natural-language biological tasks. OmicsLM represents each transcriptomic profile as a compact continuous representation within the LLM context. This interface preserves quantitative expression signal while allowing natural-language instructions, explicit gene mentions, and multiple interleaved biological samples to be processed together in one model context. We train OmicsLM on more than 5.5 million instruction-following examples spanning over 70 task types, combining continuous transcriptomic inputs, experimental data rendered through diverse language templates, and free-text biological knowledge and question-answering data. This mixture covers cell type annotation, perturbation prediction, clinical prediction, pathway reasoning, and open-ended biological question answering. Existing benchmarks evaluate either profile-level prediction or text-only biological QA, leaving language-guided, multi-sample reasoning over real expression profiles unmeasured. To close this gap, we introduce GEO-OmicsQA, a benchmark for multi-sample biological question answering built from real Gene Expression Omnibus (GEO) studies. We demonstrate that OmicsLM can use expression profiles directly and perform comparably to specialized omics models on profile-level tasks, while outperforming both omics-specialized models and general LLMs on language-guided biological reasoning over expression data.