Local-Global Multimodal Contrastive Learning for Molecular Property Prediction

📄 arXiv: 2601.22610v1 📥 PDF

作者: Xiayu Liu, Zhengyi Lu, Yunhong Liao, Chan Fan, Hou-biao Li

分类: cs.LG, cs.AI

发布日期: 2026-01-30

备注: 16 pages, 9 figures. Submitted to Briefings in Bioinformatics


💡 一句话要点

提出LGM-CL框架,通过局部-全局多模态对比学习提升分子性质预测精度。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 分子性质预测 多模态学习 对比学习 图神经网络 自然语言处理

📋 核心要点

  1. 分子性质预测需要整合分子结构和化学语义信息,现有方法难以有效融合。
  2. LGM-CL框架通过对比学习对齐局部和全局分子信息,并融入化学文本语义。
  3. 实验表明,LGM-CL在MoleculeNet基准测试中表现出色,验证了其有效性。

📝 摘要(中文)

本研究提出了一种局部-全局多模态对比学习框架LGM-CL,用于分子性质的精确预测,该框架集成了分子结构和化学语义的互补信息。LGM-CL利用AttentiveFP和Graph Transformer编码器分别捕获局部官能团信息和全局分子拓扑结构,并通过自监督对比学习进行对齐。此外,化学富集的文本描述与原始SMILES进行对比,以任务无关的方式融入物理化学语义。在微调阶段,通过双重交叉注意力多模态融合进一步整合分子指纹。在MoleculeNet基准测试上的大量实验表明,LGM-CL在分类和回归任务中均取得了持续且具有竞争力的性能,验证了统一的局部-全局和多模态表示学习的有效性。

🔬 方法详解

问题定义:分子性质预测旨在根据分子的结构和组成预测其各种物理化学性质,例如溶解度、毒性等。现有方法通常只关注分子图结构,忽略了蕴含在SMILES和化学文本中的化学语义信息。此外,如何有效地融合局部官能团信息和全局分子拓扑结构也是一个挑战。

核心思路:LGM-CL的核心思路是通过多模态对比学习,将分子图结构(局部和全局)和化学文本语义信息对齐到一个统一的表示空间中。通过对比学习,模型能够学习到不同模态之间的关联性,从而更好地理解分子的性质。

技术框架:LGM-CL框架主要包含以下几个模块:1) 局部图编码器 (AttentiveFP):用于提取局部官能团信息。2) 全局图编码器 (Graph Transformer):用于捕获全局分子拓扑结构。3) 文本编码器:用于编码SMILES和化学增强文本。4) 对比学习模块:通过对比学习对齐局部和全局图表示,以及SMILES和化学增强文本表示。5) 多模态融合模块 (Dual Cross-attention):在微调阶段,融合分子指纹信息。

关键创新:LGM-CL的关键创新在于:1) 提出了一种局部-全局多模态对比学习框架,能够有效地融合分子图结构和化学文本语义信息。2) 利用对比学习对齐不同模态的表示,从而学习到更鲁棒和泛化的分子表示。3) 使用化学增强文本,进一步丰富了模型的化学语义知识。

关键设计:在对比学习模块中,使用了InfoNCE损失函数来最大化正样本之间的相似性,并最小化负样本之间的相似性。在多模态融合模块中,使用了双重交叉注意力机制,允许不同模态之间进行信息交互。具体的参数设置和网络结构细节在论文中有详细描述,例如AttentiveFP和Graph Transformer的具体层数和隐藏层维度,以及对比学习的温度系数等。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

LGM-CL在MoleculeNet基准测试中取得了显著的性能提升。在多个分类和回归任务上,LGM-CL均优于或与现有最佳方法具有竞争力。例如,在某些任务上,LGM-CL的性能提升超过了5%。这些实验结果验证了LGM-CL框架的有效性和泛化能力。

🎯 应用场景

该研究成果可应用于药物发现、材料科学等领域,例如,可以用于预测候选药物的生物活性、毒性,加速药物筛选过程;也可以用于预测新材料的性质,指导材料设计。通过更准确地预测分子性质,可以降低实验成本,缩短研发周期,加速相关领域的创新。

📄 摘要(原文)

Accurate molecular property prediction requires integrating complementary information from molecular structure and chemical semantics. In this work, we propose LGM-CL, a local-global multimodal contrastive learning framework that jointly models molecular graphs and textual representations derived from SMILES and chemistry-aware augmented texts. Local functional group information and global molecular topology are captured using AttentiveFP and Graph Transformer encoders, respectively, and aligned through self-supervised contrastive learning. In addition, chemically enriched textual descriptions are contrasted with original SMILES to incorporate physicochemical semantics in a task-agnostic manner. During fine-tuning, molecular fingerprints are further integrated via Dual Cross-attention multimodal fusion. Extensive experiments on MoleculeNet benchmarks demonstrate that LGM-CL achieves consistent and competitive performance across both classification and regression tasks, validating the effectiveness of unified local-global and multimodal representation learning.