Unlocking Potential Binders: Multimodal Pretraining DEL-Fusion for Denoising DNA-Encoded Libraries
作者: Chunbin Gu, Mutian He, Hanqun Cao, Guangyong Chen, Chang-yu Hsieh, Pheng Ann Heng
分类: q-bio.QM, cs.AI, cs.LG, q-bio.BM
发布日期: 2024-09-07
💡 一句话要点
提出多模态预训练DEL-Fusion模型,用于DNA编码化合物库的去噪和潜在结合物识别
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: DNA编码化合物库 多模态预训练 对比学习 化合物特征融合 药物发现 去噪 结合物识别
📋 核心要点
- DEL筛选面临非特异性相互作用带来的噪声问题,现有方法提取化合物特征能力有限,无法有效去噪。
- MPDF模型通过多模态预训练增强编码器能力,并融合多尺度化合物特征,实现更全面的去噪。
- 在三个DEL数据集上的实验表明,MPDF在数据处理和分析方面表现优异,为发现高亲和力分子提供新思路。
📝 摘要(中文)
DNA编码化合物库(DEL)筛选技术已成为药物发现中识别高亲和力化合物的有效方法。然而,DEL筛选面临一个重大挑战:复杂生物系统中非特异性相互作用产生的噪声。本文提出一种多模态预训练DEL-Fusion模型(MPDF),通过预训练增强编码器能力,并整合跨尺度的化合物特征,以解决DEL数据中的噪声问题。MPDF通过对比不同化合物表示及其文本描述的预训练任务,增强化合物编码器获取通用特征的能力。此外,提出了一个新颖的DEL-fusion框架,融合原子、亚分子和分子水平的化合物信息。在三个DEL数据集上的评估表明,MPDF在数据处理和验证任务中表现出色,为识别高亲和力分子提供了新见解,为改进DEL在药物发现中的应用铺平了道路。
🔬 方法详解
问题定义:DNA编码化合物库(DEL)筛选技术在药物发现中被广泛应用,但其数据受到非特异性相互作用产生的噪声干扰,导致难以准确识别潜在的结合物。现有方法通常只关注单一层级的化合物特征,且化合物编码器的性能受限于DEL库中构建模块的多样性,因此去噪效果不佳。
核心思路:本文的核心思路是通过多模态预训练增强化合物编码器的能力,使其能够学习到更通用的化合物特征。同时,通过融合原子、亚分子和分子等多个尺度的化合物信息,构建更全面的化合物表示,从而提高去噪效果和结合物识别的准确性。
技术框架:MPDF模型包含两个主要组成部分:多模态预训练模块和DEL-fusion框架。多模态预训练模块利用对比学习,将化合物的结构表示(例如分子图)和文本描述对齐,从而提升编码器的泛化能力。DEL-fusion框架则负责融合不同编码器提取的原子、亚分子和分子级别的特征,形成一个多尺度的化合物表示。最终,该表示被用于下游的去噪和结合物预测任务。
关键创新:MPDF的关键创新在于其多模态预训练策略和DEL-fusion框架。多模态预训练能够有效提升化合物编码器的性能,使其能够学习到更丰富的化合物特征。DEL-fusion框架则通过融合多尺度信息,克服了现有方法仅关注单一层级特征的局限性,从而提高了去噪和结合物识别的准确性。
关键设计:在多模态预训练中,使用了对比损失函数来对齐化合物的结构表示和文本描述。DEL-fusion框架中,使用了不同的化合物编码器来提取原子、亚分子和分子级别的特征,例如GCN、Transformer等。具体参数设置和网络结构的选择可能因数据集而异,但整体目标是最大化不同尺度信息的互补性。
🖼️ 关键图片
📊 实验亮点
MPDF模型在三个DEL数据集上进行了评估,实验结果表明,MPDF在数据处理和分析方面均优于现有方法。具体而言,MPDF能够更准确地识别高亲和力分子,并有效降低DEL数据中的噪声。相较于基线模型,MPDF在结合物预测任务上的性能提升显著,证明了其多模态预训练和DEL-fusion框架的有效性。
🎯 应用场景
该研究成果可应用于药物发现领域,用于提高DNA编码化合物库筛选的效率和准确性。通过MPDF模型,研究人员可以更有效地去除DEL数据中的噪声,从而更准确地识别潜在的药物先导化合物。此外,该方法还可以扩展到其他化合物筛选和活性预测任务中,具有广泛的应用前景。
📄 摘要(原文)
In the realm of drug discovery, DNA-encoded library (DEL) screening technology has emerged as an efficient method for identifying high-affinity compounds. However, DEL screening faces a significant challenge: noise arising from nonspecific interactions within complex biological systems. Neural networks trained on DEL libraries have been employed to extract compound features, aiming to denoise the data and uncover potential binders to the desired therapeutic target. Nevertheless, the inherent structure of DEL, constrained by the limited diversity of building blocks, impacts the performance of compound encoders. Moreover, existing methods only capture compound features at a single level, further limiting the effectiveness of the denoising strategy. To mitigate these issues, we propose a Multimodal Pretraining DEL-Fusion model (MPDF) that enhances encoder capabilities through pretraining and integrates compound features across various scales. We develop pretraining tasks applying contrastive objectives between different compound representations and their text descriptions, enhancing the compound encoders' ability to acquire generic features. Furthermore, we propose a novel DEL-fusion framework that amalgamates compound information at the atomic, submolecular, and molecular levels, as captured by various compound encoders. The synergy of these innovations equips MPDF with enriched, multi-scale features, enabling comprehensive downstream denoising. Evaluated on three DEL datasets, MPDF demonstrates superior performance in data processing and analysis for validation tasks. Notably, MPDF offers novel insights into identifying high-affinity molecules, paving the way for improved DEL utility in drug discovery.