SMILES-Mamba: Chemical Mamba Foundation Models for Drug ADMET Prediction
作者: Bohao Xu, Yingzhou Lu, Chenhao Li, Ling Yue, Xiao Wang, Nan Hao, Tianfan Fu, Jim Chen
分类: cs.LG, q-bio.QM
发布日期: 2024-08-11
💡 一句话要点
SMILES-Mamba:用于药物ADMET预测的化学Mamba基础模型
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 药物发现 ADMET预测 自监督学习 Mamba模型 SMILES 分子性质预测 预训练 微调
📋 核心要点
- 药物ADMET性质预测是药物发现的关键,但传统方法依赖大量实验数据,成本高昂。
- SMILES-Mamba通过自监督预训练和微调,利用无标签SMILES数据学习化学结构信息。
- 实验表明,SMILES-Mamba在多个ADMET任务上表现出色,降低了对有标签数据的依赖。
📝 摘要(中文)
在药物发现中,预测小分子药物的吸收、分布、代谢、排泄和毒性(ADMET)性质对于确保安全性和有效性至关重要。然而,准确预测这些性质的过程通常资源密集,并且需要大量的实验数据。为了解决这个挑战,我们提出了SMILES-Mamba,一个两阶段模型,通过结合自监督预训练和微调策略,利用了无标签和有标签数据。该模型首先在一个大型无标签SMILES字符串语料库上进行预训练,以捕获潜在的化学结构和关系,然后在特定于ADMET任务的较小、有标签的数据集上进行微调。我们的结果表明,SMILES-Mamba在22个ADMET数据集中表现出竞争性的性能,在14个任务中取得了最高分,突出了自监督学习在提高分子性质预测方面的潜力。这种方法不仅提高了预测准确性,还减少了对大型有标签数据集的依赖,为药物发现的未来研究提供了一个有希望的方向。
🔬 方法详解
问题定义:论文旨在解决药物发现中ADMET(吸收、分布、代谢、排泄和毒性)性质预测问题。现有方法依赖于大量的实验数据,成本高昂且耗时,限制了药物研发的效率。此外,针对特定ADMET任务的有标签数据往往稀缺,导致模型泛化能力不足。
核心思路:论文的核心思路是利用自监督学习,通过大规模无标签的SMILES(Simplified Molecular Input Line Entry System)字符串数据进行预训练,使模型能够学习到通用的化学结构和性质表示。然后,在少量有标签的ADMET数据集上进行微调,将预训练的知识迁移到特定任务中,从而提高预测准确性和泛化能力。
技术框架:SMILES-Mamba模型采用两阶段训练框架:首先是自监督预训练阶段,使用大规模无标签SMILES字符串数据集训练Mamba模型,学习化学结构的潜在表示。然后是微调阶段,使用特定ADMET任务的有标签数据集对预训练的Mamba模型进行微调,使其适应特定任务的需求。整体流程包括数据预处理、模型预训练、模型微调和性能评估。
关键创新:该论文的关键创新在于将Mamba架构应用于化学分子表示学习,并结合自监督预训练和微调策略。Mamba架构以其选择性状态空间模型(Selective State Space Model, S6)的特性,能够有效地处理序列数据,并具有良好的长程依赖建模能力,这对于理解SMILES字符串中的化学结构信息至关重要。与传统的循环神经网络(RNN)或Transformer模型相比,Mamba在处理长序列时具有更高的效率和更低的计算复杂度。
关键设计:在预训练阶段,论文可能采用了Masked Language Modeling (MLM) 或其他自监督学习目标,例如预测SMILES字符串中的缺失字符或片段。在微调阶段,损失函数通常采用二元交叉熵损失或均方误差损失,具体取决于ADMET任务的性质(分类或回归)。模型的具体参数设置(如Mamba层的数量、隐藏层维度等)以及优化器的选择(如AdamW)等技术细节未知,需要在论文中进一步查找。
🖼️ 关键图片
📊 实验亮点
SMILES-Mamba在22个ADMET数据集上进行了评估,并在14个任务中取得了最佳性能。这表明该模型在分子性质预测方面具有很强的竞争力。通过自监督预训练,SMILES-Mamba能够有效地利用无标签数据,从而减少了对大量有标签数据的依赖,这对于ADMET预测任务来说尤为重要,因为高质量的有标签数据通常难以获取。
🎯 应用场景
SMILES-Mamba在药物发现领域具有广泛的应用前景。它可以用于加速药物筛选过程,降低研发成本,并提高药物的安全性和有效性。通过准确预测ADMET性质,该模型可以帮助研究人员识别潜在的药物候选分子,并优化其结构,从而减少后期临床试验失败的风险。此外,该模型还可以应用于虚拟筛选、药物重定位等任务,为新药研发提供有力支持。
📄 摘要(原文)
In drug discovery, predicting the absorption, distribution, metabolism, excretion, and toxicity (ADMET) properties of small-molecule drugs is critical for ensuring safety and efficacy. However, the process of accurately predicting these properties is often resource-intensive and requires extensive experimental data. To address this challenge, we propose SMILES-Mamba, a two-stage model that leverages both unlabeled and labeled data through a combination of self-supervised pretraining and fine-tuning strategies. The model first pre-trains on a large corpus of unlabeled SMILES strings to capture the underlying chemical structure and relationships, before being fine-tuned on smaller, labeled datasets specific to ADMET tasks. Our results demonstrate that SMILES-Mamba exhibits competitive performance across 22 ADMET datasets, achieving the highest score in 14 tasks, highlighting the potential of self-supervised learning in improving molecular property prediction. This approach not only enhances prediction accuracy but also reduces the dependence on large, labeled datasets, offering a promising direction for future research in drug discovery.