MIMIC: A Generative Multimodal Foundation Model for Biomolecules

📄 arXiv: 2604.24506v1 📥 PDF

作者: Siavash Golkar, Jake Kovalic, Irina Espejo Morales, Samuel Sledzieski, Minhuan Li, Ksenia Sokolova, Geraud Krawezik, Alberto Bietti, Claudia Skok Gibbs, Roman Klypa, Shengwei Xiong, Francois Lanusse, Liam Parker, Kyunghyun Cho, Miles Cranmer, Tom Hehir, Michael McCabe, Lucas Meyer, Rudy Morel, Payel Mukhopadhyay, Mariel Pettee, Helen Qu, Jeff Shen, David Fouhey, Hadi Sotoudeh, Vikram Mulligan, Pilar Cossio, Sonya M. Hanson, Alisha N. Jones, Olga G. Troyanskaya, Shirley Ho

分类: cs.AI, cs.LG

发布日期: 2026-04-27


💡 一句话要点

MIMIC:用于生物分子的生成式多模态基础模型,实现跨模态生物分子状态建模与设计。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 生成模型 生物分子 表征学习 RNA剪接 蛋白质设计 生物信息学

📋 核心要点

  1. 现有生物学基础模型通常局限于单一模态或特定任务,无法充分捕捉生物功能的复杂性。
  2. MIMIC通过多模态生成建模,整合序列、结构、调控等信息,实现跨模态的生物分子状态建模。
  3. 实验表明,MIMIC在RNA和蛋白质下游任务上表现出色,并在剪接预测和约束设计方面取得领先。

📝 摘要(中文)

生物功能源于序列、结构、调控、进化和细胞环境等多种约束的耦合。然而,目前生物学中的大多数基础模型仅在单一模态或针对固定的前向任务进行训练。我们提出了MIMIC,一个生成式多模态基础模型,它基于我们新构建和对齐的数据集LORE进行训练,该数据集将核酸、蛋白质、进化、结构、调控和语义/上下文模态联系在部分观察到的生物分子状态中。MIMIC使用分离式编码器-解码器架构,以任意观察到的模态子集为条件,重建或生成基因组、转录组和蛋白质组中缺失的分子状态组成部分。相对于仅使用序列作为输入,多模态条件作用持续改进MIMIC的序列重建能力,同时其学习到的表征在RNA和蛋白质下游任务上实现了最先进的性能。MIMIC实现了最先进的剪接预测,并且其联合生成公式能够实现异构体感知的推断,从而进一步提高性能。除了预测之外,相同的生成框架还支持约束设计。对于RNA,MIMIC通过使用进化和结构信号识别临床相关的HBB剪接破坏突变中的纠正性编辑,而无需恢复它。对于蛋白质,联合调节PD-L1和hACE2结合位点的形状和表面化学性质,产生具有强大的计算机支持靶标结合的多样化、高置信度序列。最后,MIMIC使用实验环境作为语义条件来模拟依赖于测定的RNA化学探测,而不是将环境视为固定输出。总之,这些结果表明,MIMIC对齐的多模态生成建模是统一表征学习、条件预测和约束生物分子设计的一个强大基础。

🔬 方法详解

问题定义:现有生物学基础模型主要存在两个痛点。一是大多模型只关注单一数据模态,例如只关注蛋白质序列或者RNA结构,忽略了生物分子功能是由多种模态信息共同决定的事实。二是现有模型通常针对特定的预测任务进行训练,例如蛋白质结构预测,缺乏通用性和泛化能力。因此,如何构建一个能够整合多种模态信息,并且能够应用于多种生物学任务的通用模型是一个重要的挑战。

核心思路:MIMIC的核心思路是利用生成式多模态建模,将不同模态的生物分子信息(如序列、结构、调控等)整合到一个统一的模型中。通过训练模型来重建或生成缺失的模态信息,从而学习到不同模态之间的关联关系。这种生成式的框架使得模型不仅可以用于预测任务,还可以用于生物分子的设计任务。

技术框架:MIMIC采用split-track encoder-decoder架构。编码器部分负责将不同模态的输入信息编码成统一的隐空间表示。解码器部分则根据编码后的隐空间表示,重建或生成缺失的模态信息。整个框架可以分为以下几个主要模块:1) 多模态数据输入模块:负责接收不同模态的生物分子数据。2) 编码器模块:将不同模态的数据编码成统一的隐空间表示。3) 解码器模块:根据隐空间表示重建或生成缺失的模态信息。4) 损失函数模块:用于衡量模型重建或生成结果与真实值之间的差异。

关键创新:MIMIC的关键创新在于其多模态生成建模框架。与传统的单模态或判别式模型相比,MIMIC能够更好地捕捉不同模态之间的关联关系,并且能够应用于更广泛的生物学任务。此外,MIMIC还采用了分离式编码器-解码器架构,使得模型能够灵活地处理不同模态的输入信息。

关键设计:MIMIC的关键设计包括:1) LORE数据集:一个新构建和对齐的数据集,包含核酸、蛋白质、进化、结构、调控和语义/上下文模态。2) 分离式编码器-解码器架构:允许模型灵活地处理不同模态的输入信息。3) 多种损失函数:用于衡量模型在不同任务上的性能,包括序列重建损失、结构预测损失等。4) 异构体感知的推断:通过联合生成公式,实现异构体感知的推断,从而提高剪接预测的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MIMIC在多个生物学任务上取得了显著的成果。在RNA剪接预测任务中,MIMIC达到了state-of-the-art的性能,并且通过异构体感知的推断进一步提高了性能。在蛋白质设计任务中,MIMIC能够生成具有高置信度靶标结合的序列。此外,MIMIC还能够利用进化和结构信号,识别临床相关的HBB剪接破坏突变中的纠正性编辑。

🎯 应用场景

MIMIC具有广泛的应用前景,包括:1) 药物设计:通过约束条件下的生成,设计具有特定功能的生物分子。2) 基因治疗:识别并纠正基因突变,开发新的治疗方法。3) 生物工程:优化生物分子的性能,用于工业生产。4) 疾病诊断:通过多模态数据分析,提高疾病诊断的准确性。未来,MIMIC有望成为生物学研究和应用的重要工具。

📄 摘要(原文)

Biological function emerges from coupled constraints across sequence, structure, regulation, evolution, and cellular context, yet most foundation models in biology are trained within one modality or for a fixed forward task. We present MIMIC, a generative multimodal foundation model trained on our newly curated and aligned dataset, LORE, linking nucleic acid, protein, evolutionary, structural, regulatory, and semantic/contextual modalities within partially observed biomolecular states. MIMIC uses a split-track encoder-decoder architecture to condition on arbitrary subsets of observed modalities and reconstruct or generate missing components of molecular state across the genome, transcriptome, and proteome. Multimodal conditioning consistently improves MIMIC's sequence reconstruction relative to sequence-only inputs, while its learned representations enable state-of-the-art performance on RNA and protein downstream tasks. MIMIC achieves state-of-the-art splicing prediction, and its joint generative formulation enables isoform-aware inference that further improves performance. Beyond prediction, the same generative framework supports constrained design. For RNA, MIMIC identifies corrective edits in a clinically relevant HBB splice-disrupting mutation without reverting it by using evolutionary and structural signals. For proteins, jointly conditioning on shape and surface chemistry of PD-L1 and hACE2 binding sites produces diverse, high-confidence sequences with strong in silico support for target binding. Finally, MIMIC uses experimental context as semantic conditioning to model assay-dependent RNA chemical probing, rather than treating context as a fixed output. Together, these results position MIMIC's aligned multimodal generative modeling as a strong foundation for unifying representation learning, conditional prediction, and constrained biomolecular design within a single model.