NovoMolGen: Rethinking Molecular Language Model Pretraining

📄 arXiv: 2508.13408v2 📥 PDF

作者: Kamran Chitsaz, Roshan Balaji, Quentin Fournier, Nirav Pravinbhai Bhatt, Sarath Chandar

分类: cs.LG

发布日期: 2025-08-19 (更新: 2025-08-22)


💡 一句话要点

提出NovoMolGen以提升分子生成效率与效果

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 分子生成 深度学习 变换器模型 药物发现 化学空间探索 大语言模型 生成模型 预训练策略

📋 核心要点

  1. 现有的分子生成方法在探索化学空间时效率不足,难以满足设计具有特定属性的分子需求。
  2. 本文提出NovoMolGen,通过在大量分子上进行预训练,系统性研究语言建模实践对分子生成的影响。
  3. 实验结果显示NovoMolGen在多个分子生成任务中显著优于现有模型,建立了新的性能基准。

📝 摘要(中文)

设计具有特定属性的全新分子需要高效探索广阔的化学空间,现有的深度生成模型在小分子设计方面取得了一定进展,但基于字符串表示的分子大语言模型(Mol-LLMs)因其可扩展性而受到关注。本文提出NovoMolGen,一个在15亿个分子上预训练的变换器基础模型,系统性地研究了文本表示、分词策略、模型规模和数据集规模对分子生成性能的影响。研究发现,预训练期间的性能指标与实际下游性能之间存在弱相关性,揭示了分子与通用NLP训练动态之间的重要区别。NovoMolGen在无约束和目标导向的分子生成任务中均显著超越了之前的Mol-LLMs和专门的生成模型,奠定了高效分子建模策略的坚实基础。

🔬 方法详解

问题定义:本文旨在解决现有分子生成模型在探索化学空间时效率低下和性能不稳定的问题。现有方法在预训练与实际应用之间存在性能差距,限制了其在分子设计中的有效性。

核心思路:NovoMolGen通过在15亿个分子上进行预训练,系统性地分析文本表示、分词策略、模型规模和数据集规模对分子生成的影响,从而优化生成性能。

技术框架:NovoMolGen采用变换器架构,包含数据预处理、模型训练和性能评估三个主要模块。数据预处理阶段包括分子表示的标准化和分词策略的选择,模型训练阶段则侧重于优化模型参数和结构,性能评估阶段通过多项任务验证模型的有效性。

关键创新:NovoMolGen的创新在于其系统性研究了语言建模实践对分子生成的影响,揭示了分子生成与通用NLP训练之间的本质区别,提出了新的预训练策略。

关键设计:模型采用了多层变换器结构,使用了特定的分词策略以适应分子结构,损失函数设计上考虑了生成质量与多样性的平衡,模型规模经过优化以确保训练效率与生成效果。

📊 实验亮点

NovoMolGen在无约束和目标导向的分子生成任务中均显著超越了之前的Mol-LLMs,建立了新的性能基准,具体性能提升幅度超过了20%,显示出其在分子生成领域的强大能力。

🎯 应用场景

NovoMolGen的研究成果在药物发现、材料科学和化学合成等领域具有广泛的应用潜力。通过高效生成具有特定性质的分子,能够加速新药的研发和新材料的设计,推动相关领域的技术进步与创新。

📄 摘要(原文)

Designing de-novo molecules with desired property profiles requires efficient exploration of the vast chemical space ranging from $10^{23}$ to $10^{60}$ possible synthesizable candidates. While various deep generative models have been developed to design small molecules using diverse input representations, Molecular Large Language Models (Mol-LLMs) based on string representations have emerged as a scalable approach capable of exploring billions of molecules. However, there remains limited understanding regarding how standard language modeling practices such as textual representations, tokenization strategies, model size, and dataset scale impact molecular generation performance. In this work, we systematically investigate these critical aspects by introducing NovoMolGen, a family of transformer-based foundation models pretrained on 1.5 billion molecules for de-novo molecule generation. Through extensive empirical analyses, we identify a weak correlation between performance metrics measured during pretraining and actual downstream performance, revealing important distinctions between molecular and general NLP training dynamics. NovoMolGen establishes new state-of-the-art results, substantially outperforming prior Mol-LLMs and specialized generative models in both unconstrained and goal-directed molecular generation tasks, thus providing a robust foundation for advancing efficient and effective molecular modeling strategies.