Omni-DNA: A Unified Genomic Foundation Model for Cross-Modal and Multi-Task Learning
作者: Zehui Li, Vallijah Subasri, Yifei Shen, Dongsheng Li, Yiren Zhao, Guy-Bart Stan, Caihua Shan
分类: q-bio.GN, cs.AI, cs.LG
发布日期: 2025-02-05
🔗 代码/项目: HUGGINGFACE
💡 一句话要点
Omni-DNA:用于跨模态和多任务学习的统一基因组基础模型
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 基因组基础模型 多任务学习 跨模态学习 Transformer DNA序列分析
📋 核心要点
- 现有基因组基础模型需为每个任务单独微调,成本高昂,且输出格式僵化,限制了应用范围。
- Omni-DNA通过预训练和多任务微调,构建统一的跨模态基因组基础模型,提升泛化能力。
- Omni-DNA在多个基因组任务上取得SOTA性能,并展示了处理DNA到文本和图像映射的能力。
📝 摘要(中文)
大型语言模型(LLMs)在各种任务中表现出卓越的泛化能力,但基因组基础模型(GFMs)仍然需要为每个下游应用单独进行微调,随着模型规模的增长,这会产生巨大的开销。此外,现有的GFMs受到严格输出格式的限制,限制了它们在各种基因组任务中的适用性。本文重新审视了基于Transformer的自回归模型,并介绍了Omni-DNA,这是一个参数规模从2000万到10亿的跨模态多任务模型系列。我们的方法包括两个阶段:(i)使用下一个token预测目标在DNA序列上进行预训练,以及(ii)扩展多模态特定任务的token并同时对多个下游任务进行微调。在Nucleotide Transformer和GB基准测试中进行评估时,Omni-DNA在26个任务中的18个任务上实现了最先进的性能。通过多任务微调,Omni-DNA一次性解决了10个乙酰化和甲基化任务,超过了在每个任务上单独训练的模型。最后,我们设计了两个复杂的基因组任务,DNA2Function和Needle-in-DNA,分别将DNA序列映射到文本功能描述和图像,表明Omni-DNA的跨模态能力可以扩大基因组应用范围。
🔬 方法详解
问题定义:现有基因组基础模型(GFMs)的痛点在于,它们缺乏通用性,需要针对每个下游任务进行单独的微调。这导致了巨大的计算和时间成本,尤其是在模型规模不断增长的情况下。此外,现有GFMs的输出格式通常是固定的,限制了它们在不同类型的基因组任务中的应用。
核心思路:Omni-DNA的核心思路是构建一个统一的基因组基础模型,该模型可以通过多任务学习来处理各种基因组任务,并具备跨模态的能力。通过预训练和多任务微调,Omni-DNA能够学习到DNA序列的通用表示,从而可以应用于不同的下游任务,而无需针对每个任务进行单独的训练。
技术框架:Omni-DNA的整体框架包括两个主要阶段:预训练阶段和多任务微调阶段。在预训练阶段,模型使用下一个token预测的目标在大量的DNA序列上进行训练。在多任务微调阶段,模型通过扩展多模态特定任务的token,并同时对多个下游任务进行微调。模型基于Transformer的自回归架构。
关键创新:Omni-DNA的关键创新在于其统一的架构和多任务学习方法。通过将多个基因组任务整合到一个模型中,Omni-DNA能够共享不同任务之间的知识,从而提高模型的泛化能力和性能。此外,Omni-DNA还引入了跨模态的能力,使其能够处理DNA序列到文本和图像的映射任务。
关键设计:Omni-DNA使用了Transformer的自回归架构,并采用了下一个token预测作为预训练的目标。在多任务微调阶段,模型通过添加特定任务的token来区分不同的任务。损失函数是各个任务损失的加权和,权重可以根据任务的重要性进行调整。模型参数规模从2000万到10亿不等。
🖼️ 关键图片
📊 实验亮点
Omni-DNA在Nucleotide Transformer和GB基准测试中,在26个任务中的18个任务上取得了SOTA性能。通过多任务微调,Omni-DNA能够同时处理10个乙酰化和甲基化任务,并且性能超过了在每个任务上单独训练的模型。在DNA2Function和Needle-in-DNA这两个跨模态任务中,Omni-DNA也展示了其强大的能力。
🎯 应用场景
Omni-DNA的潜在应用领域包括基因组功能预测、疾病诊断、药物发现和个性化医疗。该模型可以用于预测DNA序列的功能,识别与疾病相关的基因变异,设计新的药物靶点,并根据个体的基因组信息制定个性化的治疗方案。未来,Omni-DNA有望成为基因组研究和应用的重要工具。
📄 摘要(原文)
Large Language Models (LLMs) demonstrate remarkable generalizability across diverse tasks, yet genomic foundation models (GFMs) still require separate finetuning for each downstream application, creating significant overhead as model sizes grow. Moreover, existing GFMs are constrained by rigid output formats, limiting their applicability to various genomic tasks. In this work, we revisit the transformer-based auto-regressive models and introduce Omni-DNA, a family of cross-modal multi-task models ranging from 20 million to 1 billion parameters. Our approach consists of two stages: (i) pretraining on DNA sequences with next token prediction objective, and (ii) expanding the multi-modal task-specific tokens and finetuning for multiple downstream tasks simultaneously. When evaluated on the Nucleotide Transformer and GB benchmarks, Omni-DNA achieves state-of-the-art performance on 18 out of 26 tasks. Through multi-task finetuning, Omni-DNA addresses 10 acetylation and methylation tasks at once, surpassing models trained on each task individually. Finally, we design two complex genomic tasks, DNA2Function and Needle-in-DNA, which map DNA sequences to textual functional descriptions and images, respectively, indicating Omni-DNA's cross-modal capabilities to broaden the scope of genomic applications. All the models are available through https://huggingface.co/collections/zehui127