Helix-mRNA: A Hybrid Foundation Model For Full Sequence mRNA Therapeutics

📄 arXiv: 2502.13785v2 📥 PDF

作者: Matthew Wood, Mathieu Klop, Maxime Allard

分类: q-bio.GN, cs.AI

发布日期: 2025-02-19 (更新: 2025-03-11)

备注: 8 pages, 3 figures, 3 tables

🔗 代码/项目: GITHUB | HUGGINGFACE


💡 一句话要点

提出Helix-mRNA混合模型,用于优化全序列mRNA疗法,显著提升序列长度和参数效率。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: mRNA疗法 序列优化 深度学习 混合模型 状态空间模型 注意力机制 非翻译区 预训练

📋 核心要点

  1. 现有深度学习模型在mRNA优化中主要关注编码区,忽略了非翻译区(UTR)的重要性,限制了优化效果。
  2. Helix-mRNA采用结构化状态空间和注意力混合模型,结合单核苷酸分词和密码子分离,保留生物和结构信息。
  3. Helix-mRNA在UTR和编码区分析上优于现有方法,处理序列长度提升6倍,参数量仅为现有模型的10%。

📝 摘要(中文)

基于mRNA的疫苗已成为制药工业的主要焦点。mRNA的编码序列以及非翻译区(UTR)能够强烈影响翻译效率、稳定性、降解和其他决定疫苗有效性的因素。然而,优化mRNA序列以获得这些特性仍然是一个复杂的挑战。现有的深度学习模型通常只关注编码区域的优化,忽略了UTR。我们提出了Helix-mRNA,一个结构化的基于状态空间和注意力机制的混合模型来应对这些挑战。除了第一次预训练之外,第二个预训练阶段允许我们使用高质量的数据来专门化模型。我们采用mRNA序列的单核苷酸分词和密码子分离,确保原始mRNA序列的先验生物和结构信息不丢失。我们的模型Helix-mRNA在分析UTR和编码区域特性方面优于现有方法。它可以处理比当前方法长6倍的序列,同时仅使用现有基础模型10%的参数。它的预测能力扩展到所有mRNA区域。我们开源了该模型(https://github.com/helicalAI/helical)和模型权重(https://huggingface.co/helical-ai/helix-mRNA)。

🔬 方法详解

问题定义:现有mRNA疗法优化方法主要集中在编码区,忽略了非翻译区(UTR)对翻译效率、稳定性和降解等关键因素的影响。现有模型无法有效处理长序列,且参数量巨大,限制了其应用范围。

核心思路:Helix-mRNA的核心思路是构建一个能够同时处理编码区和UTR的混合模型,利用结构化状态空间模型处理长序列依赖关系,并结合注意力机制捕捉局部特征。通过两阶段预训练,使模型能够学习高质量的mRNA序列特征。

技术框架:Helix-mRNA采用混合架构,结合了结构化状态空间模型(例如Mamba)和注意力机制。模型首先通过单核苷酸分词和密码子分离对mRNA序列进行编码,然后输入到混合模型中进行特征提取和预测。模型包含两阶段预训练:第一阶段进行通用序列建模,第二阶段使用高质量mRNA数据进行微调。

关键创新:Helix-mRNA的关键创新在于其混合架构,能够有效处理长序列并捕捉局部特征。此外,单核苷酸分词和密码子分离保留了重要的生物和结构信息。两阶段预训练策略进一步提升了模型的性能。

关键设计:模型使用单核苷酸作为token,并以密码子为单位进行分隔,以保留mRNA的生物学信息。模型采用Mamba作为长程依赖建模的基础,并结合注意力机制增强局部特征提取能力。损失函数的设计目标是准确预测mRNA的各种性质,例如翻译效率和稳定性。具体参数设置和网络结构细节未在摘要中详细说明,需要参考论文全文。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Helix-mRNA在mRNA序列分析任务中表现出色,能够处理比现有方法长6倍的序列,同时参数量仅为现有基础模型的10%。该模型在预测UTR和编码区域特性方面均优于现有方法,证明了其在全序列mRNA优化方面的潜力。模型和权重已开源,方便研究人员使用和进一步开发。

🎯 应用场景

Helix-mRNA可应用于mRNA疫苗和疗法的序列优化,提升疫苗的翻译效率、稳定性和有效性。该模型能够加速mRNA药物的研发过程,降低研发成本,并为个性化医疗提供更有效的解决方案。未来,该模型可扩展到其他RNA相关的生物学研究领域。

📄 摘要(原文)

mRNA-based vaccines have become a major focus in the pharmaceutical industry. The coding sequence as well as the Untranslated Regions (UTRs) of an mRNA can strongly influence translation efficiency, stability, degradation, and other factors that collectively determine a vaccine's effectiveness. However, optimizing mRNA sequences for those properties remains a complex challenge. Existing deep learning models often focus solely on coding region optimization, overlooking the UTRs. We present Helix-mRNA, a structured state-space-based and attention hybrid model to address these challenges. In addition to a first pre-training, a second pre-training stage allows us to specialise the model with high-quality data. We employ single nucleotide tokenization of mRNA sequences with codon separation, ensuring prior biological and structural information from the original mRNA sequence is not lost. Our model, Helix-mRNA, outperforms existing methods in analysing both UTRs and coding region properties. It can process sequences 6x longer than current approaches while using only 10% of the parameters of existing foundation models. Its predictive capabilities extend to all mRNA regions. We open-source the model (https://github.com/helicalAI/helical) and model weights (https://huggingface.co/helical-ai/helix-mRNA).