Geneverse: A collection of Open-source Multimodal Large Language Models for Genomic and Proteomic Research

📄 arXiv: 2406.15534v1 📥 PDF

作者: Tianyu Liu, Yijia Xiao, Xiao Luo, Hua Xu, W. Jim Zheng, Hongyu Zhao

分类: cs.LG, cs.AI, cs.CL, q-bio.QM

发布日期: 2024-06-21

备注: 8 pages

期刊: EMNLP 2024


💡 一句话要点

Geneverse:用于基因组学和蛋白质组学研究的开源多模态大语言模型集合

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 基因组学 蛋白质组学 大语言模型 多模态学习 参数高效微调

📋 核心要点

  1. 现有生物医学数据训练的开源LLM在基因组学和蛋白质组学应用有限,缺乏针对性模型。
  2. Geneverse通过微调LLM和MLLM,针对基因功能描述、蛋白质功能推断和标记基因选择等任务。
  3. 实验证明,Geneverse模型在真实性和结构正确性方面优于闭源模型,且训练策略和基础模型开源。

📝 摘要(中文)

本文提出了Geneverse,一个精调的大语言模型(LLM)和多模态大语言模型(MLLM)集合,专门用于基因组学和蛋白质组学研究中的三个新颖任务。Geneverse中的模型基于领域特定的数据集进行训练和评估,并采用先进的参数高效微调技术,以实现模型对任务的适应,包括基因功能描述生成、蛋白质结构推断蛋白质功能以及从空间转录组数据中选择标记基因。实验结果表明,经过调整的LLM和MLLM在这些任务中表现良好,并且在真实性和结构正确性方面,优于闭源的大规模模型。所有训练策略和使用的基础模型都是可以自由访问的。

🔬 方法详解

问题定义:现有的大语言模型在生物医学领域的应用潜力巨大,但在基因组学和蛋白质组学方面的研究仍然有限。现有的方法缺乏针对基因功能描述生成、蛋白质结构推断蛋白质功能以及从空间转录组数据中选择标记基因等特定任务的专用模型,并且难以保证生成结果的真实性和结构正确性。

核心思路:Geneverse的核心思路是利用参数高效的微调技术,将通用的大语言模型(LLM)和多模态大语言模型(MLLM)适应于基因组学和蛋白质组学中的特定任务。通过在领域特定的数据集上进行训练,使模型能够更好地理解和处理生物医学数据,从而提高模型在这些任务上的性能。

技术框架:Geneverse包含一系列经过微调的LLM和MLLM,用于解决基因组学和蛋白质组学中的三个任务:1) 基因功能描述生成;2) 蛋白质结构推断蛋白质功能;3) 从空间转录组数据中选择标记基因。整体流程包括:选择合适的预训练LLM/MLLM作为基础模型,构建领域特定的数据集,采用参数高效的微调技术进行模型训练,以及在测试集上评估模型的性能。

关键创新:Geneverse的关键创新在于构建了一个专门针对基因组学和蛋白质组学研究的开源LLM/MLLM集合。与现有方法相比,Geneverse更加关注领域特定任务的性能,并通过参数高效的微调技术,在有限的计算资源下实现了模型的有效适应。此外,Geneverse还强调生成结果的真实性和结构正确性,这对于生物医学研究至关重要。

关键设计:Geneverse采用了参数高效的微调技术,例如LoRA或Adapter,以减少训练所需的计算资源。针对不同的任务,选择了合适的损失函数,例如交叉熵损失或结构相似性损失。在模型结构方面,根据任务的特点,可能需要对基础模型的结构进行调整,例如添加额外的输入层或输出层。

📊 实验亮点

Geneverse在基因功能描述生成、蛋白质功能推断和标记基因选择等任务上表现出色,并在真实性和结构正确性方面优于闭源模型。具体性能数据和提升幅度在论文中进行了详细的展示和对比。

🎯 应用场景

Geneverse可应用于基因功能自动注释、蛋白质功能预测、疾病标志物发现等领域,加速生物医药研究进程。通过开源模型和训练策略,促进领域内知识共享和模型复用,降低研究门槛,推动个性化医疗和精准诊断的发展。

📄 摘要(原文)

The applications of large language models (LLMs) are promising for biomedical and healthcare research. Despite the availability of open-source LLMs trained using a wide range of biomedical data, current research on the applications of LLMs to genomics and proteomics is still limited. To fill this gap, we propose a collection of finetuned LLMs and multimodal LLMs (MLLMs), known as Geneverse, for three novel tasks in genomic and proteomic research. The models in Geneverse are trained and evaluated based on domain-specific datasets, and we use advanced parameter-efficient finetuning techniques to achieve the model adaptation for tasks including the generation of descriptions for gene functions, protein function inference from its structure, and marker gene selection from spatial transcriptomic data. We demonstrate that adapted LLMs and MLLMs perform well for these tasks and may outperform closed-source large-scale models based on our evaluations focusing on both truthfulness and structural correctness. All of the training strategies and base models we used are freely accessible.