Multi-view biomedical foundation models for molecule-target and property prediction

📄 arXiv: 2410.19704v4 📥 PDF

作者: Parthasarathy Suryanarayanan, Yunguang Qiu, Shreyans Sethi, Diwakar Mahajan, Hongyang Li, Yuxin Yang, Elif Eyigoz, Aldo Guzman Saenz, Daniel E. Platt, Timothy H. Rumbell, Kenney Ng, Sanjoy Dey, Myson Burch, Bum Chul Kwon, Pablo Meyer, Feixiong Cheng, Jianying Hu, Joseph A. Morrone

分类: q-bio.BM, cs.AI, cs.LG

发布日期: 2024-10-25 (更新: 2025-07-15)

备注: 40 pages including supplement. 10 figures, 8 tables


💡 一句话要点

提出MMELON多视图生物医学基础模型,用于分子靶标和性质预测。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多视图学习 分子表示 基础模型 药物发现 G蛋白偶联受体 阿尔茨海默病 Late Fusion

📋 核心要点

  1. 现有分子表示方法通常依赖单一视图,限制了模型在不同任务上的泛化能力。
  2. MMELON通过融合分子图、图像和文本等多视图信息,提升分子表示的质量和鲁棒性。
  3. 实验表明,MMELON在分子性质预测等120多项任务中表现出色,并成功应用于阿尔茨海默病相关GPCR的药物筛选。

📝 摘要(中文)

高质量的分子表示是生物医学研究中开发基础模型的关键。以往的研究通常侧重于单一的分子表示或视图,这可能在特定任务上存在优势或劣势。本文开发了一种名为Multi-view Molecular Embedding with Late Fusion (MMELON)的方法,该方法在基础模型设置中集成了图、图像和文本视图,并且可以很容易地扩展到其他表示。单视图基础模型各自在一个包含高达2亿个分子的数据集上进行预训练。多视图模型表现出强大的性能,与排名最高的单视图模型相匹配。它在超过120个任务上进行了验证,包括分子溶解度、ADME性质以及针对G蛋白偶联受体(GPCRs)的活性。我们识别出33个与阿尔茨海默病相关的GPCR,并使用多视图模型从化合物筛选中选择强结合剂。通过基于结构的建模和关键结合基序的识别来验证预测。

🔬 方法详解

问题定义:现有分子表示方法通常只关注单一的分子视图(例如,分子图、SMILES 字符串等),这限制了模型在不同任务上的泛化能力。不同的视图可能捕捉到分子不同的特性,单一视图的模型难以充分利用所有可用的信息。因此,如何有效地融合来自不同视图的分子信息,构建更全面、更鲁棒的分子表示,是本文要解决的核心问题。

核心思路:本文的核心思路是利用多视图学习的思想,将分子表示为图、图像和文本等多种形式,并分别训练单视图的基础模型。然后,通过一种称为“Late Fusion”的策略,将不同视图的预测结果进行融合,从而得到最终的预测结果。这种方法可以充分利用不同视图的优势,提高模型的预测精度和泛化能力。

技术框架:MMELON 的整体框架包含以下几个主要步骤:1) 数据准备:将分子表示为图、图像和文本三种形式。2) 单视图预训练:分别在包含高达2亿个分子的数据集上预训练图、图像和文本三种单视图的基础模型。3) Late Fusion:对于给定的预测任务,使用预训练的单视图模型分别进行预测,然后将预测结果进行融合,得到最终的预测结果。融合方法可以是简单的平均,也可以是更复杂的加权平均或模型集成。

关键创新:MMELON 的关键创新在于:1) 多视图融合:首次将图、图像和文本等多种分子视图融合到一个基础模型中,充分利用了不同视图的互补信息。2) Late Fusion 策略:采用 Late Fusion 策略,避免了直接融合不同视图的特征表示,降低了模型的复杂性,提高了训练效率。3) 大规模预训练:在包含高达2亿个分子的数据集上进行预训练,提高了模型的泛化能力。

关键设计:在单视图模型的选择上,作者使用了基于 Transformer 的模型,例如 Graph Transformer、Image Transformer 和 Text Transformer。在 Late Fusion 阶段,作者尝试了不同的融合方法,包括简单的平均和加权平均。对于不同的预测任务,作者会根据实际情况调整融合权重。损失函数方面,作者使用了标准的交叉熵损失函数或均方误差损失函数。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MMELON 在超过120个任务上进行了验证,包括分子溶解度、ADME性质以及针对G蛋白偶联受体(GPCRs)的活性。实验结果表明,MMELON 的性能与排名最高的单视图模型相匹配,并且在某些任务上表现更好。此外,MMELON 还成功应用于阿尔茨海默病相关GPCR的药物筛选,并通过结构建模验证了预测结果。

🎯 应用场景

该研究成果可广泛应用于药物发现、分子性质预测、材料科学等领域。通过融合多视图信息,可以更准确地预测分子的生物活性、物理化学性质等,从而加速新药研发和新材料设计。特别是,该模型在阿尔茨海默病相关靶点的药物筛选中展现出潜力,有望为该疾病的治疗提供新的思路。

📄 摘要(原文)

Quality molecular representations are key to foundation model development in bio-medical research. Previous efforts have typically focused on a single representation or molecular view, which may have strengths or weaknesses on a given task. We develop Multi-view Molecular Embedding with Late Fusion (MMELON), an approach that integrates graph, image and text views in a foundation model setting and may be readily extended to additional representations. Single-view foundation models are each pre-trained on a dataset of up to 200M molecules. The multi-view model performs robustly, matching the performance of the highest-ranked single-view. It is validated on over 120 tasks, including molecular solubility, ADME properties, and activity against G Protein-Coupled receptors (GPCRs). We identify 33 GPCRs that are related to Alzheimer's disease and employ the multi-view model to select strong binders from a compound screen. Predictions are validated through structure-based modeling and identification of key binding motifs.