MolDA: Molecular Understanding and Generation via Large Language Diffusion Model
作者: Seohyeon Shin, HanJun Choi, Jun-Hyung Park, Hongkook Kim, Mansu Kim
分类: cs.AI
发布日期: 2026-04-07
💡 一句话要点
MolDA:提出基于扩散语言模型的新型分子理解与生成框架,解决自回归模型的局限性。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 分子生成 扩散模型 大型语言模型 图神经网络 药物发现
📋 核心要点
- 现有分子生成方法依赖自回归模型,难以处理全局约束,易累积结构错误。
- MolDA采用扩散语言模型,通过双向迭代去噪,保证全局结构一致性和化学有效性。
- MolDA在分子生成、描述和属性预测任务上表现出色,验证了其有效性。
📝 摘要(中文)
大型语言模型(LLMs)在分子发现领域取得了显著进展,但现有的多模态分子架构主要依赖于自回归(AR)骨干网络。这种严格的从左到右的归纳偏置对于生成化学上有效的分子来说并非最优,因为它难以考虑非局部全局约束(例如,环闭合),并且经常在顺序生成过程中累积结构错误。为了解决这些限制,我们提出了MolDA(具有掩码扩散的分子语言模型),这是一种新颖的多模态框架,它用离散的大型语言扩散模型取代了传统的AR骨干网络。MolDA使用混合图编码器提取全面的结构表示,该编码器捕获局部和全局拓扑,并通过Q-Former将其对齐到语言token空间中。此外,我们专门针对掩码扩散重新制定了分子结构偏好优化。通过双向迭代去噪,MolDA确保了分子生成、标题生成和属性预测中的全局结构一致性、化学有效性和鲁棒的推理能力。
🔬 方法详解
问题定义:现有基于自回归(AR)的大型语言模型在分子生成任务中存在局限性。由于AR模型固有的从左到右的生成顺序,它们难以捕捉分子结构中的非局部全局约束(如环的闭合),并且容易在生成过程中累积结构错误,导致生成的分子化学有效性降低。
核心思路:MolDA的核心思路是利用扩散模型来替代传统的自回归模型。扩散模型通过迭代地去噪过程,能够更好地捕捉分子结构的全局信息,从而避免自回归模型中的顺序依赖问题。通过将分子结构编码为离散的语言token,并使用大型语言扩散模型进行生成,MolDA能够生成更符合化学规则且结构合理的分子。
技术框架:MolDA的整体框架包括以下几个主要模块:1) 混合图编码器:用于提取分子的局部和全局拓扑信息。2) Q-Former:用于将图编码器的输出对齐到语言token空间。3) 大型语言扩散模型:用于迭代地去噪并生成分子结构。整个流程首先使用图编码器提取分子特征,然后通过Q-Former将其映射到语言空间,最后使用扩散模型进行迭代去噪,最终生成分子结构。
关键创新:MolDA的关键创新在于使用扩散模型替代自回归模型进行分子生成。与自回归模型相比,扩散模型能够更好地捕捉分子结构的全局信息,避免顺序依赖问题,从而生成更符合化学规则且结构合理的分子。此外,论文还针对掩码扩散模型重新制定了分子结构偏好优化方法。
关键设计:MolDA的关键设计包括:1) 混合图编码器的设计,能够同时捕捉局部和全局拓扑信息。2) Q-Former的设计,能够有效地将图特征映射到语言空间。3) 扩散模型的选择和训练策略,保证了生成分子的化学有效性和结构合理性。此外,论文还针对掩码扩散模型设计了特定的损失函数,以优化生成分子的结构偏好。
🖼️ 关键图片
📊 实验亮点
论文提出的MolDA模型在分子生成、描述和属性预测任务上均取得了显著的性能提升。具体来说,MolDA在生成化学有效分子方面的表现优于现有的自回归模型,并且在分子描述和属性预测任务上取得了更高的准确率。这些实验结果表明,MolDA能够有效地捕捉分子结构的全局信息,并生成更符合化学规则且结构合理的分子。
🎯 应用场景
MolDA具有广泛的应用前景,可用于新药发现、材料设计等领域。通过生成具有特定性质的分子,MolDA可以加速药物研发过程,降低研发成本。此外,MolDA还可以用于设计新型材料,例如具有特定导电性或光学性质的材料,从而推动材料科学的发展。
📄 摘要(原文)
Large Language Models (LLMs) have significantly advanced molecular discovery, but existing multimodal molecular architectures fundamentally rely on autoregressive (AR) backbones. This strict left-to-right inductive bias is sub-optimal for generating chemically valid molecules, as it struggles to account for non-local global constraints (e.g., ring closures) and often accumulates structural errors during sequential generation. To address these limitations, we propose MolDA (Molecular language model with masked Diffusion with mAsking), a novel multimodal framework that replaces the conventional AR backbone with a discrete Large Language Diffusion Model. MolDA extracts comprehensive structural representations using a hybrid graph encoder, which captures both local and global topologies, and aligns them into the language token space via a Q-Former. Furthermore, we mathematically reformulate Molecular Structure Preference Optimization specifically for the masked diffusion. Through bidirectional iterative denoising, MolDA ensures global structural coherence, chemical validity, and robust reasoning across molecule generation, captioning, and property prediction.