An Evolutionary Approach for Designing Stable and Highly Expressible Low-Immunogenicity Therapeutic mRNA Sequences

📄 arXiv: 2605.27986v1 📥 PDF

作者: Dhawa Sang Dong, Mausam Gurung, Suraj Kandel

分类: cs.CL, q-bio.QM

发布日期: 2026-05-27


💡 一句话要点

提出基于BERT和遗传算法的mRNA序列优化框架,提升稳定性和表达效率并降低免疫原性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: mRNA序列优化 深度学习 遗传算法 CodonTransformer 翻译效率 结构稳定性 免疫原性 治疗性mRNA

📋 核心要点

  1. 现有mRNA序列设计方法难以兼顾翻译效率、结构稳定性和低免疫原性,导致治疗效果受限。
  2. 该研究提出结合BERT和遗传算法的双阶段优化框架,利用深度学习生成候选序列,再通过进化算法优化各项指标。
  3. 实验表明,该框架显著提升了mRNA的翻译效率和结构稳定性,同时降低了免疫原性,优于现有方法。

📝 摘要(中文)

本研究提出了一种双阶段的计算机模拟框架,该框架集成了深度学习和进化计算,用于合理优化治疗性mRNA序列,以替代现有的最先进模型。第一阶段,预训练的CodonTransformer(类BERT的大型语言模型)生成编码目标抗原的生物学上连贯的mRNA序列。第二阶段,遗传算法(GA)通过密码子感知的交叉和同义突变,在人类密码子使用偏好的指导下,进化这些候选序列。评估的适应度函数结合了翻译相关指标(CAI、tAI、密码子对偏好)、mRNA结构稳定性(通过RNAfold计算的局部和全局MFE、GC含量)以及降低的免疫原性(CpG/UpA基序频率)。实验结果表明,该框架在提高CAI和tAI值,改善核糖体在5'端的易接近性,平衡全局最小自由能(MFE),并降低免疫刺激基序方面均有显著效果,证明了BERT-GA框架在mRNA序列设计和优化中的有效性。

🔬 方法详解

问题定义:现有mRNA序列设计方法存在局限性。例如,线性设计可能产生过度稳定的转录本,导致翻译效率低下;而BiLSTM-CRF模型可能只关注高CAI值,忽略了结构约束。因此,需要一种能够平衡翻译效率、结构稳定性和低免疫原性的mRNA序列优化方法。

核心思路:本研究的核心思路是将深度学习和进化计算相结合,利用深度学习模型生成具有生物学意义的候选mRNA序列,然后通过遗传算法对这些序列进行优化,以达到翻译效率、结构稳定性和低免疫原性的平衡。这种方法能够充分利用深度学习模型在序列生成方面的优势,以及进化算法在多目标优化方面的能力。

技术框架:该框架包含两个主要阶段:1) 基于CodonTransformer的序列生成:使用预训练的CodonTransformer模型(类似于BERT的大型语言模型)生成编码目标抗原的mRNA序列。该模型能够学习密码子之间的依赖关系,从而生成生物学上连贯的序列。2) 基于遗传算法的序列优化:使用遗传算法对生成的候选序列进行优化。遗传算法通过密码子感知的交叉和同义突变,在人类密码子使用偏好的指导下,进化这些序列。适应度函数结合了翻译相关指标(CAI、tAI、密码子对偏好)、mRNA结构稳定性(通过RNAfold计算的局部和全局MFE、GC含量)以及降低的免疫原性(CpG/UpA基序频率)。

关键创新:该研究的关键创新在于将深度学习和进化计算相结合,用于mRNA序列优化。与现有方法相比,该框架能够更好地平衡翻译效率、结构稳定性和低免疫原性。此外,该研究还使用了预训练的CodonTransformer模型,该模型能够生成生物学上连贯的mRNA序列,从而提高了优化效率。

关键设计:在遗传算法中,关键设计包括:1) 密码子感知的交叉和同义突变:确保在进化过程中保持序列的编码能力。2) 适应度函数:综合考虑了翻译效率、结构稳定性和低免疫原性等多个目标。具体而言,翻译效率通过CAI、tAI和密码子对偏好来衡量;结构稳定性通过RNAfold计算的局部和全局MFE以及GC含量来衡量;免疫原性通过CpG/UpA基序频率来衡量。3) 人类密码子使用偏好:在进化过程中,优先选择人类常用的密码子,以提高翻译效率。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,经过38、40和42代遗传算法优化后,CAI值提升至0.73-0.74,tAI值提升至0.63-0.64,密码子对偏好保持在0.97的高水平,5'端非配对比例达到0.87,全局MFE收敛至-346到-356 kcal/mol,免疫惩罚降低至27.3。这些结果表明,该框架能够有效提高mRNA的翻译效率和结构稳定性,同时降低免疫原性。

🎯 应用场景

该研究成果可应用于治疗性mRNA疫苗和药物的开发,例如癌症免疫治疗、传染病疫苗等。通过优化mRNA序列,可以提高疫苗和药物的疗效,降低不良反应,从而改善患者的治疗效果。该方法还可用于体外诊断试剂的开发,提高检测的灵敏度和特异性。

📄 摘要(原文)

Messenger RNA (mRNA) sequences as therapeutics require optimized design to ensure efficient translation, structural stability, and minimal immunogenicity. This study presents a two-stage in-silico framework that integrates deep learning and evolutionary computation for rational mRNA optimization instead of existing state-of-the-art models. In the first stage, a pretrained CodonTransformer (BERT-like Large Language Model) generates biologically coherent mRNA sequences encoding the target antigen. In the second stage, a genetic algorithm (GA) evolves these candidate sequences through codon-aware crossover and synonymous mutation guided by human codon usage preferences. Fitness functions for evaluation combined translation-related metrics (CAI, tAI, codon-pair bias), mRNA structural stability (local and global MFE via RNAfold, GC content), and reduced immunogenicity (CpG/UpA motif frequency). Over successive generations (38th, 40th, and 42nd), the GA improved (achieved CAI values of 0.73 to 0.74 and tAI values of 0.63 to 0.64) CAI and tAI by over 6% and codon-pair bias is high and consistent (0.97 ) and improved ribosomal accessibility at the 5' end, with an unpaired_30 fraction reaching 0.87; Global Minimum Free Energy (MFE) converged to a balanced range of -346 to -356 kcal/mol, achieving approximately 84% base-paired structural stability, and reduced immune-stimulatory motifs - lowering the average immune penalty to 27.3 in the final generation. Linear Design produces hyper-stable transcripts (MFE < - 2000 kcal/mol) that risk translation inefficiency due to extreme rigidity, and BiLSTM-CRF focuses solely on high CAI (0.96 to 0.98) without structural constraints, our framework achieves an optimal translation-stability equilibrium, highlighting the proposed BERT-GA framework as an effective, data-driven approach for the design and optimization of in-silico mRNA sequences.