Gene42: Long-Range Genomic Foundation Model With Dense Attention

📄 arXiv: 2503.16565v1 📥 PDF

作者: Kirill Vishniakov, Boulbaba Ben Amor, Engin Tekin, Nancy A. ElNaker, Karthik Viswanathan, Aleksandr Medvedev, Aahan Singh, Maryam Nadeem, Mohammad Amaan Sayeed, Praveenkumar Kanithi, Tiago Magalhaes, Natalia Vassilieva, Dwarikanath Mahapatra, Marco Pimentel, and Shadab Khan

分类: cs.LG, cs.AI, cs.CL, q-bio.GN

发布日期: 2025-03-20


💡 一句话要点

Gene42:基于密集注意力机制的长程基因组基础模型,处理高达192,000个碱基对

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 基因组基础模型 长程依赖 密集注意力 Transformer 连续预训练

📋 核心要点

  1. 现有基因组模型难以处理长程依赖关系,限制了对复杂基因组模式的理解和建模能力。
  2. Gene42采用decoder-only架构和密集自注意力机制,通过连续预训练扩展上下文长度至192,000 bp,实现长程基因组建模。
  3. 实验表明,Gene42在多种基因组任务中取得了最先进的性能,验证了其强大的基因组数据建模能力。

📝 摘要(中文)

我们介绍了Gene42,一种新型的基因组基础模型(GFM)家族,旨在以单核苷酸分辨率管理高达192,000个碱基对(bp)的上下文长度。Gene42模型采用decoder-only(LLaMA风格)架构,并具有密集的自注意力机制。我们的模型最初在4,096 bp的固定长度序列上进行训练,然后经过连续预训练,将上下文长度扩展到192,000 bp。这种迭代扩展能够全面处理大规模基因组数据,并捕获人类基因组中复杂的模式和依赖关系。Gene42是第一个能够处理如此广泛的长上下文长度的密集注意力基因组模型,对通常依赖于卷积算子等机制的状态空间模型提出了挑战。我们预训练的模型表现出显著低的困惑度值和高的重建准确率,突显了它们强大的基因组数据建模能力。在各种基因组基准上的广泛实验表明,该模型在多种任务中表现出最先进的性能,包括生物型分类、调控区域识别、染色质谱预测、变异致病性预测和物种分类。这些模型可在huggingface.co/inceptionai上公开获取。

🔬 方法详解

问题定义:现有基因组模型在处理长程依赖关系时面临挑战,无法有效捕捉基因组中远距离的相互作用和模式。传统的模型通常依赖于卷积或循环神经网络,这些方法在处理长序列时存在梯度消失或计算复杂度过高等问题。因此,需要一种能够有效处理长上下文的基因组模型,以提高基因组分析的准确性和效率。

核心思路:Gene42的核心思路是利用Transformer架构中的密集自注意力机制,并结合连续预训练的方法,来扩展模型的上下文长度。通过decoder-only的架构,模型能够学习基因组序列的概率分布,并利用自注意力机制捕捉序列中任意位置之间的依赖关系。连续预训练允许模型逐步适应更长的序列,从而避免了从头开始训练长序列模型的困难。

技术框架:Gene42的技术框架主要包括以下几个阶段:1) 初始预训练:在较短的固定长度序列(4,096 bp)上训练decoder-only模型。2) 连续预训练:逐步增加序列长度,并使用之前训练好的模型作为初始化,继续进行预训练。3) 微调:在特定的基因组任务上对预训练模型进行微调,以适应不同的应用场景。整个框架基于Transformer架构,并使用标准的自注意力机制。

关键创新:Gene42最重要的技术创新点在于其能够使用密集注意力机制处理高达192,000 bp的长序列。与现有方法相比,Gene42避免了使用卷积或状态空间模型来降低计算复杂度,而是直接利用Transformer的自注意力机制来捕捉长程依赖关系。这种方法能够更准确地建模基因组序列中的复杂模式,并提高基因组分析的性能。

关键设计:Gene42的关键设计包括:1) Decoder-only架构:采用LLaMA风格的decoder-only架构,简化了模型结构,并使其更适合于生成式任务。2) 密集自注意力机制:使用标准的自注意力机制,允许模型捕捉序列中任意位置之间的依赖关系。3) 连续预训练:通过逐步增加序列长度,并使用之前训练好的模型作为初始化,来扩展模型的上下文长度。4) 损失函数:使用交叉熵损失函数来训练模型,并优化模型的生成能力。

🖼️ 关键图片

fig_0

📊 实验亮点

Gene42在多个基因组基准测试中取得了最先进的性能。例如,在生物型分类任务中,Gene42的准确率超过了现有最佳模型。在调控区域识别任务中,Gene42能够更准确地识别基因组中的调控元件。此外,Gene42还表现出显著低的困惑度值和高的重建准确率,表明其具有强大的基因组数据建模能力。这些实验结果验证了Gene42在基因组分析中的有效性和优越性。

🎯 应用场景

Gene42在基因组学领域具有广泛的应用前景,可用于生物型分类、调控区域识别、染色质谱预测、变异致病性预测和物种分类等任务。该模型能够帮助研究人员更深入地理解基因组的结构和功能,从而加速药物研发、疾病诊断和个性化医疗等领域的发展。此外,Gene42还可以用于基因组编辑和合成生物学等新兴领域,为生物技术的创新提供新的工具和方法。

📄 摘要(原文)

We introduce Gene42, a novel family of Genomic Foundation Models (GFMs) designed to manage context lengths of up to 192,000 base pairs (bp) at a single-nucleotide resolution. Gene42 models utilize a decoder-only (LLaMA-style) architecture with a dense self-attention mechanism. Initially trained on fixed-length sequences of 4,096 bp, our models underwent continuous pretraining to extend the context length to 192,000 bp. This iterative extension allowed for the comprehensive processing of large-scale genomic data and the capture of intricate patterns and dependencies within the human genome. Gene42 is the first dense attention model capable of handling such extensive long context lengths in genomics, challenging state-space models that often rely on convolutional operators among other mechanisms. Our pretrained models exhibit notably low perplexity values and high reconstruction accuracy, highlighting their strong ability to model genomic data. Extensive experiments on various genomic benchmarks have demonstrated state-of-the-art performance across multiple tasks, including biotype classification, regulatory region identification, chromatin profiling prediction, variant pathogenicity prediction, and species classification. The models are publicly available at huggingface.co/inceptionai.