Mol-LLM: Multimodal Generalist Molecular LLM with Improved Graph Utilization

📄 arXiv: 2502.02810v2 📥 PDF

作者: Chanhui Lee, Hanbum Ko, Yuheon Song, YongJun Jeong, Rodrigo Hormazabal, Sehui Han, Kyunghoon Bae, Sungbin Lim, Sungwoong Kim

分类: cs.LG, cs.AI, physics.chem-ph, q-bio.BM

发布日期: 2025-02-05 (更新: 2025-05-26)

备注: 9 pages, 5 figures


💡 一句话要点

Mol-LLM:通过改进图利用率的多模态通用分子大语言模型

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 分子大语言模型 多模态学习 图神经网络 分子结构偏好优化 指令调优 化学反应预测 分子性质预测

📋 核心要点

  1. 现有分子LLM在利用分子图结构信息方面存在不足,简单的token预测训练忽略了分子图的结构信息。
  2. 论文提出分子结构偏好优化(MolPO)和先进的图编码器,以促进和改进分子图结构信息的利用。
  3. Mol-LLM在广泛的分子任务上取得了SOTA或可比的结果,尤其在分布外数据集上显著优于现有模型。

📝 摘要(中文)

近年来,大型语言模型(LLM)在分子任务中取得了显著进展,例如化学反应预测和分子性质预测。大规模分子指令调优数据集使得仅使用序列(如SMILES或SELFIES)的通用分子LLM成为可能。研究人员正在探索结合分子结构信息的多模态方法以进一步提升性能。然而,一个真正多模态、通用的LLM,能够覆盖广泛的分子任务,尚未得到充分研究。我们观察到,简单的下一个token预测训练忽略了图结构信息,限制了LLM利用分子图的能力。为了解决这个问题,我们提出了(i)分子结构偏好优化(MolPO),通过优化正确和扰动分子结构对之间的偏好来促进图的使用,以及(ii)一种先进的图编码器,具有定制的预训练策略,以提高MolPO对图利用的影响。基于这些贡献,我们推出了Mol-LLM,这是第一个多模态通用模型,它(a)处理分子LLM中最广泛的分子任务,(b)显式地利用分子结构信息,以及(c)利用广泛的指令调优。Mol-LLM在最全面的分子LLM基准测试中取得了最先进或可比的结果——即使在反应和性质预测的分布外数据集上,它也大大超过了之前的通用分子LLM。

🔬 方法详解

问题定义:现有分子LLM虽然在分子任务上取得了进展,但大多依赖于序列信息(如SMILES),忽略了分子图的结构信息。简单的下一个token预测训练方式无法有效利用分子图的结构信息,限制了模型的性能。因此,如何有效地将分子图结构信息融入到LLM中,是本文要解决的核心问题。

核心思路:论文的核心思路是通过分子结构偏好优化(MolPO)来引导LLM更好地利用分子图结构信息。MolPO通过优化正确和扰动分子结构之间的偏好,使得模型能够学习到分子结构的正确性,从而更好地利用图信息。同时,设计一个先进的图编码器,并采用定制的预训练策略,进一步增强图信息利用的效果。

技术框架:Mol-LLM的整体框架包括以下几个主要模块:1) 文本编码器:用于处理输入的文本序列(如SMILES)。2) 图编码器:用于编码分子图结构信息。3) 多模态融合模块:将文本编码和图编码的信息进行融合。4) LLM解码器:基于融合后的信息生成输出序列。MolPO在训练阶段优化图编码器的输出,使其更符合真实的分子结构。

关键创新:论文的关键创新在于提出了分子结构偏好优化(MolPO)方法。与传统的训练方法不同,MolPO不是直接预测下一个token,而是通过比较正确和扰动的分子结构,让模型学习到分子结构的正确性。这种方法能够更有效地利用分子图的结构信息,从而提高模型的性能。

关键设计:MolPO的关键设计在于如何生成扰动的分子结构。论文采用了一种基于规则的扰动方法,例如随机删除或添加原子、改变化学键类型等。损失函数的设计也至关重要,论文采用了一种基于排序的损失函数,鼓励模型对正确的分子结构给出更高的偏好。图编码器采用了GNN结构,并使用了预训练策略,以提高其编码能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Mol-LLM在多个分子任务上取得了SOTA或可比的结果。尤其是在分布外数据集上,Mol-LLM相比于之前的通用分子LLM有显著的提升。例如,在某些反应预测任务上,Mol-LLM的准确率提升了超过10%。这些结果表明,Mol-LLM能够更好地泛化到新的分子任务和数据集上。

🎯 应用场景

Mol-LLM具有广泛的应用前景,可用于药物发现、材料设计、化学合成等领域。它可以帮助研究人员预测分子的性质、设计新的分子结构、优化化学反应路径等。通过结合文本信息和分子结构信息,Mol-LLM能够更准确地理解和预测分子的行为,加速相关领域的研发进程。

📄 摘要(原文)

Recent advances in large language models (LLMs) have led to models that tackle diverse molecular tasks, such as chemical reaction prediction and molecular property prediction. Large-scale molecular instruction-tuning datasets have enabled sequence-only (e.g., SMILES or SELFIES) generalist molecular LLMs, and researchers are now exploring multimodal approaches that incorporate molecular structural information for further gains. However, a genuinely multimodal, generalist LLM that covers a broad spectrum of molecular tasks has yet to be fully investigated. We observe that naive next token prediction training ignores graph-structural information, limiting an LLM's ability to exploit molecular graphs. To address this, we propose (i) Molecular structure Preference Optimization (MolPO), which facilitates graph usage by optimizing preferences between pairs of correct and perturbed molecular structures, and (ii) an advanced graph encoder with a tailored pre-training strategy to improve the effect of graph utilization by MolPO. Building on these contributions, we introduce Mol-LLM, the first multimodal generalist model that (a) handles a broad spectrum of molecular tasks among molecular LLMs, (b) explicitly leverages molecular-structure information, and (c) takes advantage of extensive instruction tuning. Mol-LLM attains state-of-the-art or comparable results across the most comprehensive molecular-LLM benchmark-even on out-of-distribution datasets for reaction and property prediction, where it surpasses prior generalist molecular LLMs by a large margin.