Bridging Sequence-Structure Alignment in RNA Foundation Models

📄 arXiv: 2407.11242v3 📥 PDF

作者: Heng Yang, Renzhi Chen, Ke Li

分类: q-bio.GN, cs.CL

发布日期: 2024-07-15 (更新: 2024-12-13)

备注: Accepted by AAAI 2025


💡 一句话要点

OmniGenome:提出一种RNA基础模型,通过结构上下文建模对齐序列-结构,实现RNA序列和结构的双向映射。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: RNA基础模型 序列-结构对齐 结构上下文建模 RNA设计 零样本学习

📋 核心要点

  1. 现有RNA基础模型在序列和结构对齐方面存在不足,限制了基因组信息的有效传递。
  2. OmniGenome通过结构上下文建模,实现了RNA序列和二级结构的对齐,支持序列和结构之间的双向映射。
  3. 实验表明,OmniGenome在RNA设计和零样本二级结构预测任务上表现出色,并在多个基因组建模基准上取得了领先成果。

📝 摘要(中文)

本文深入研究了RNA基础模型(FMs)中RNA序列和结构之间的对齐问题。现有FMs难以建立序列-结构对齐,阻碍了RNA序列和结构之间基因组信息的自由流动。本文提出了OmniGenome,这是一个RNA FM,通过结构上下文建模,训练以对齐RNA序列和二级结构。这种对齐通过灵活的RNA建模范式,支持多功能的输入和输出模式(即,序列和/或结构作为输入/输出),从而实现序列和结构之间的自由和双向映射。我们通过RNA设计和零样本二级结构预测作为案例研究,评估OmniGenome的Seq2Str和Str2Seq映射能力。在EternaV2基准测试上的结果表明,OmniGenome解决了74%的难题,而现有的FMs由于忽略了序列-结构对齐,最多只能解决3%的难题。我们利用四个全面的计算机基因组建模基准来评估各种基因组下游任务的性能,结果表明,即使没有任何DNA基因组的训练,OmniGenome在RNA和DNA基准上也能实现最先进的性能。

🔬 方法详解

问题定义:现有RNA基础模型难以有效对齐RNA序列和二级结构,导致序列和结构之间的信息传递受阻。这限制了模型在RNA设计、结构预测等下游任务中的性能,阻碍了对RNA功能的深入理解。现有方法通常独立处理序列和结构信息,缺乏有效的桥梁将两者联系起来。

核心思路:OmniGenome的核心思路是通过结构上下文建模,学习RNA序列和二级结构之间的内在联系。通过将结构信息融入到序列建模过程中,模型能够更好地理解RNA序列的结构特征,从而实现序列和结构之间的双向映射。这种方法允许模型根据序列预测结构,也可以根据结构反推序列,从而实现更灵活的RNA建模。

技术框架:OmniGenome采用了一种基于Transformer的架构,该架构经过专门设计,可以同时处理RNA序列和二级结构信息。模型的输入可以是RNA序列、二级结构或两者的组合。模型通过自注意力机制学习序列和结构之间的依赖关系。模型的输出可以是预测的RNA序列、二级结构或两者的组合。整个框架支持灵活的输入输出模式,允许用户根据不同的任务需求选择合适的输入和输出。

关键创新:OmniGenome最重要的技术创新在于其结构上下文建模方法。该方法通过将二级结构信息编码为结构上下文向量,并将其融入到序列建模过程中,从而使模型能够更好地理解RNA序列的结构特征。这种方法与现有方法的本质区别在于,它不是独立地处理序列和结构信息,而是将两者紧密地结合在一起,从而实现了更有效的序列-结构对齐。

关键设计:OmniGenome的关键设计包括:1) 使用Transformer架构进行序列和结构建模;2) 设计结构上下文向量来编码二级结构信息;3) 使用自注意力机制学习序列和结构之间的依赖关系;4) 使用多种损失函数来优化模型的性能,包括序列预测损失、结构预测损失和序列-结构对齐损失。具体的参数设置和网络结构细节在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

OmniGenome在EternaV2基准测试中解决了74%的难题,而现有FMs最多只能解决3%的难题,表明其在RNA序列-结构对齐方面具有显著优势。此外,OmniGenome在多个基因组建模基准上取得了最先进的性能,即使没有经过DNA基因组的训练,也能在DNA基准上表现出色,证明了其强大的泛化能力。

🎯 应用场景

OmniGenome在RNA设计、药物发现、基因编辑等领域具有广泛的应用前景。它可以用于设计具有特定功能的RNA分子,开发针对RNA靶点的药物,以及优化基因编辑工具的性能。此外,OmniGenome还可以用于研究RNA的结构和功能,从而加深对生命过程的理解。该研究的成果有望推动RNA相关领域的发展,为人类健康和生物技术进步做出贡献。

📄 摘要(原文)

The alignment between RNA sequences and structures in foundation models (FMs) has yet to be thoroughly investigated. Existing FMs have struggled to establish sequence-structure alignment, hindering the free flow of genomic information between RNA sequences and structures. In this study, we introduce OmniGenome, an RNA FM trained to align RNA sequences with respect to secondary structures based on structure-contextualised modelling. The alignment enables free and bidirectional mappings between sequences and structures by utilising the flexible RNA modelling paradigm that supports versatile input and output modalities, i.e., sequence and/or structure as input/output. We implement RNA design and zero-shot secondary structure prediction as case studies to evaluate the Seq2Str and Str2Seq mapping capacity of OmniGenome. Results on the EternaV2 benchmark show that OmniGenome solved 74% of puzzles, whereas existing FMs only solved up to 3% of the puzzles due to the oversight of sequence-structure alignment. We leverage four comprehensive in-silico genome modelling benchmarks to evaluate performance across a diverse set of genome downstream tasks, where the results show that OmniGenome achieves state-of-the-art performance on RNA and DNA benchmarks, even without any training on DNA genomes.