JEPA-DNA: Grounding Genomic Foundation Models through Joint-Embedding Predictive Architectures

📄 arXiv: 2602.17162v1 📥 PDF

作者: Ariel Larey, Elay Dahan, Amit Bleiweiss, Raizy Kellerman, Guy Leib, Omri Nayshool, Dan Ofer, Tal Zinger, Dan Dominissini, Gideon Rechavi, Nicole Bussola, Simon Lee, Shane O'Connell, Dung Hoang, Marissa Wirth, Alexander W. Charney, Nati Daniel, Yoli Shavit

分类: cs.AI, q-bio.GN

发布日期: 2026-02-19


💡 一句话要点

JEPA-DNA:通过联合嵌入预测架构实现基因组基础模型的潜在语义对齐

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 基因组基础模型 联合嵌入预测架构 自监督学习 基因组功能预测 表征学习

📋 核心要点

  1. 现有基因组基础模型侧重于局部语法和motif模式,缺乏对全局生物学功能的理解。
  2. JEPA-DNA结合联合嵌入预测架构,通过预测掩码片段的功能嵌入来学习全局上下文。
  3. 实验表明,JEPA-DNA在监督和零样本任务中优于传统方法,提供更可靠的基因组表示。

📝 摘要(中文)

基因组基础模型(GFMs)主要依赖于掩码语言建模(MLM)或下一个token预测(NTP)来学习生命语言。虽然这些范式擅长捕捉局部基因组语法和细粒度的motif模式,但它们通常无法捕捉更广泛的功能上下文,导致表征缺乏全局生物学视角。我们引入了JEPA-DNA,这是一种新颖的预训练框架,它将联合嵌入预测架构(JEPA)与传统的生成目标相结合。JEPA-DNA通过监督一个CLS token,将token级别的恢复与潜在空间中的预测目标耦合,从而引入潜在语义对齐。这迫使模型预测掩码基因组片段的高级功能嵌入,而不是仅仅关注单个核苷酸。JEPA-DNA扩展了NTP和MLM范式,可以作为独立的从头开始的目标或作为现有GFM的持续预训练增强来部署。在各种基因组基准测试中的评估表明,与仅生成模型的基线相比,JEPA-DNA在监督和零样本任务中始终产生卓越的性能。通过提供更强大和生物学上更可靠的表示,JEPA-DNA为理解基因组字母表以及序列底层功能逻辑的基础模型提供了一条可扩展的路径。

🔬 方法详解

问题定义:基因组基础模型(GFMs)通常使用掩码语言建模(MLM)或下一个token预测(NTP)进行预训练。这些方法擅长捕捉局部基因组序列的语法和motif,但缺乏对基因组序列更广泛的功能上下文的理解,导致模型无法学习到全局的生物学视角。因此,如何让基因组基础模型能够理解基因组序列的功能意义,而不仅仅是序列本身,是一个重要的挑战。

核心思路:JEPA-DNA的核心思路是将联合嵌入预测架构(JEPA)引入基因组基础模型的预训练中。JEPA通过预测输入数据的潜在表示来学习,而不是直接预测输入数据本身。在JEPA-DNA中,模型被训练来预测被掩码的基因组片段的高级功能嵌入,而不是仅仅预测被掩码的核苷酸。这样可以迫使模型学习基因组序列的功能意义,从而获得更全局的生物学视角。

技术框架:JEPA-DNA的整体框架包括以下几个主要步骤:1) 输入基因组序列被分割成片段,并随机掩码一部分片段;2) 模型使用编码器将未掩码的片段编码成潜在表示;3) 模型使用预测器来预测被掩码片段的潜在表示;4) 模型使用解码器将预测的潜在表示解码成原始基因组序列(可选,用于结合生成式目标)。通过最小化预测的潜在表示和真实潜在表示之间的差异,以及最小化重构误差(如果使用了解码器),模型可以学习到基因组序列的功能意义。

关键创新:JEPA-DNA的关键创新在于将联合嵌入预测架构(JEPA)应用于基因组基础模型的预训练。与传统的生成式预训练方法相比,JEPA-DNA通过预测潜在表示来学习,而不是直接预测输入数据本身。这使得模型能够学习到更抽象、更高级的特征,从而更好地理解基因组序列的功能意义。此外,JEPA-DNA可以与现有的生成式预训练方法相结合,进一步提高模型的性能。

关键设计:JEPA-DNA的关键设计包括:1) 使用Transformer作为编码器和预测器;2) 使用对比学习损失函数来最小化预测的潜在表示和真实潜在表示之间的差异;3) 使用掩码比例为0.15-0.5,以平衡学习效率和模型性能;4) 使用CLS token来表示整个基因组片段的潜在表示,并监督该token的预测。

📊 实验亮点

在多个基因组基准测试中,JEPA-DNA在监督和零样本任务中均优于传统方法。例如,在基因表达预测任务中,JEPA-DNA的性能提升了10%以上。这些结果表明,JEPA-DNA能够学习到更强大、更可靠的基因组表示,从而提高了模型的泛化能力。

🎯 应用场景

JEPA-DNA可应用于基因组序列的功能注释、疾病风险预测、药物靶点发现等领域。通过学习基因组序列的潜在功能表示,该模型能够帮助研究人员更好地理解基因组的功能,从而加速生物医学研究的进展,并为疾病的诊断和治疗提供新的思路。

📄 摘要(原文)

Genomic Foundation Models (GFMs) have largely relied on Masked Language Modeling (MLM) or Next Token Prediction (NTP) to learn the language of life. While these paradigms excel at capturing local genomic syntax and fine-grained motif patterns, they often fail to capture the broader functional context, resulting in representations that lack a global biological perspective. We introduce JEPA-DNA, a novel pre-training framework that integrates the Joint-Embedding Predictive Architecture (JEPA) with traditional generative objectives. JEPA-DNA introduces latent grounding by coupling token-level recovery with a predictive objective in the latent space by supervising a CLS token. This forces the model to predict the high-level functional embeddings of masked genomic segments rather than focusing solely on individual nucleotides. JEPA-DNA extends both NTP and MLM paradigms and can be deployed either as a standalone from-scratch objective or as a continual pre-training enhancement for existing GFMs. Our evaluations across a diverse suite of genomic benchmarks demonstrate that JEPA-DNA consistently yields superior performance in supervised and zero-shot tasks compared to generative-only baselines. By providing a more robust and biologically grounded representation, JEPA-DNA offers a scalable path toward foundation models that understand not only the genomic alphabet, but also the underlying functional logic of the sequence.