SMILES-Mamba: Chemical Mamba Foundation Models for Drug ADMET Prediction

作者: Bohao Xu, Yingzhou Lu, Chenhao Li, Ling Yue, Xiao Wang, Nan Hao, Tianfan Fu, Jim Chen

分类: cs.LG, q-bio.QM

发布日期: 2024-08-11

💡 一句话要点

SMILES-Mamba：用于药物ADMET预测的化学Mamba基础模型

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 药物发现 ADMET预测 自监督学习 Mamba模型 SMILES 分子性质预测 预训练 微调

📋 核心要点

药物ADMET性质预测是药物发现的关键，但传统方法依赖大量实验数据，成本高昂。
SMILES-Mamba通过自监督预训练和微调，利用无标签SMILES数据学习化学结构信息。
实验表明，SMILES-Mamba在多个ADMET任务上表现出色，降低了对有标签数据的依赖。

📝 摘要（中文）

在药物发现中，预测小分子药物的吸收、分布、代谢、排泄和毒性（ADMET）性质对于确保安全性和有效性至关重要。然而，准确预测这些性质的过程通常资源密集，并且需要大量的实验数据。为了解决这个挑战，我们提出了SMILES-Mamba，一个两阶段模型，通过结合自监督预训练和微调策略，利用了无标签和有标签数据。该模型首先在一个大型无标签SMILES字符串语料库上进行预训练，以捕获潜在的化学结构和关系，然后在特定于ADMET任务的较小、有标签的数据集上进行微调。我们的结果表明，SMILES-Mamba在22个ADMET数据集中表现出竞争性的性能，在14个任务中取得了最高分，突出了自监督学习在提高分子性质预测方面的潜力。这种方法不仅提高了预测准确性，还减少了对大型有标签数据集的依赖，为药物发现的未来研究提供了一个有希望的方向。

🔬 方法详解

问题定义：论文旨在解决药物发现中ADMET（吸收、分布、代谢、排泄和毒性）性质预测问题。现有方法依赖于大量的实验数据，成本高昂且耗时，限制了药物研发的效率。此外，针对特定ADMET任务的有标签数据往往稀缺，导致模型泛化能力不足。

核心思路：论文的核心思路是利用自监督学习，通过大规模无标签的SMILES（Simplified Molecular Input Line Entry System）字符串数据进行预训练，使模型能够学习到通用的化学结构和性质表示。然后，在少量有标签的ADMET数据集上进行微调，将预训练的知识迁移到特定任务中，从而提高预测准确性和泛化能力。

技术框架：SMILES-Mamba模型采用两阶段训练框架：首先是自监督预训练阶段，使用大规模无标签SMILES字符串数据集训练Mamba模型，学习化学结构的潜在表示。然后是微调阶段，使用特定ADMET任务的有标签数据集对预训练的Mamba模型进行微调，使其适应特定任务的需求。整体流程包括数据预处理、模型预训练、模型微调和性能评估。

关键创新：该论文的关键创新在于将Mamba架构应用于化学分子表示学习，并结合自监督预训练和微调策略。Mamba架构以其选择性状态空间模型（Selective State Space Model, S6）的特性，能够有效地处理序列数据，并具有良好的长程依赖建模能力，这对于理解SMILES字符串中的化学结构信息至关重要。与传统的循环神经网络（RNN）或Transformer模型相比，Mamba在处理长序列时具有更高的效率和更低的计算复杂度。

关键设计：在预训练阶段，论文可能采用了Masked Language Modeling (MLM) 或其他自监督学习目标，例如预测SMILES字符串中的缺失字符或片段。在微调阶段，损失函数通常采用二元交叉熵损失或均方误差损失，具体取决于ADMET任务的性质（分类或回归）。模型的具体参数设置（如Mamba层的数量、隐藏层维度等）以及优化器的选择（如AdamW）等技术细节未知，需要在论文中进一步查找。

🖼️ 关键图片

📊 实验亮点

SMILES-Mamba在22个ADMET数据集上进行了评估，并在14个任务中取得了最佳性能。这表明该模型在分子性质预测方面具有很强的竞争力。通过自监督预训练，SMILES-Mamba能够有效地利用无标签数据，从而减少了对大量有标签数据的依赖，这对于ADMET预测任务来说尤为重要，因为高质量的有标签数据通常难以获取。

🎯 应用场景

SMILES-Mamba在药物发现领域具有广泛的应用前景。它可以用于加速药物筛选过程，降低研发成本，并提高药物的安全性和有效性。通过准确预测ADMET性质，该模型可以帮助研究人员识别潜在的药物候选分子，并优化其结构，从而减少后期临床试验失败的风险。此外，该模型还可以应用于虚拟筛选、药物重定位等任务，为新药研发提供有力支持。

📄 摘要（原文）

In drug discovery, predicting the absorption, distribution, metabolism, excretion, and toxicity (ADMET) properties of small-molecule drugs is critical for ensuring safety and efficacy. However, the process of accurately predicting these properties is often resource-intensive and requires extensive experimental data. To address this challenge, we propose SMILES-Mamba, a two-stage model that leverages both unlabeled and labeled data through a combination of self-supervised pretraining and fine-tuning strategies. The model first pre-trains on a large corpus of unlabeled SMILES strings to capture the underlying chemical structure and relationships, before being fine-tuned on smaller, labeled datasets specific to ADMET tasks. Our results demonstrate that SMILES-Mamba exhibits competitive performance across 22 ADMET datasets, achieving the highest score in 14 tasks, highlighting the potential of self-supervised learning in improving molecular property prediction. This approach not only enhances prediction accuracy but also reduces the dependence on large, labeled datasets, offering a promising direction for future research in drug discovery.

SMILES-Mamba: Chemical Mamba Foundation Models for Drug ADMET Prediction

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理