Tokenization for Molecular Foundation Models
作者: Alexius Wadell, Anoushka Bhutani, Venkatasubramanian Viswanathan
分类: cs.LG, cs.AI, physics.chem-ph, q-bio.BM
发布日期: 2024-09-19 (更新: 2025-07-08)
备注: 26 pages, 4 figures
💡 一句话要点
提出Smirk和Smirk-GPE分子分词器,提升分子Foundation Model对化学空间的覆盖率。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 分子Foundation Model 分词器 SMILES表示 OpenSMILES 化学信息学
📋 核心要点
- 现有分子Foundation Model受限于封闭词汇表分词器,无法充分覆盖分子空间,限制了其应用。
- 提出Smirk和Smirk-GPE两种新分词器,完全覆盖OpenSMILES规范,整合了核、电子和几何自由度。
- 通过预训练和微调RoBERTa编码器进行分子性质预测,验证了新分词器的有效性,并强调了开放词汇建模的重要性。
📝 摘要(中文)
基于文本的Foundation Model在科学发现中扮演着重要角色,分子Foundation Model加速了材料科学和分子设计领域的进展。然而,现有模型受到封闭词汇表分词器的限制,仅能捕获分子空间的一小部分。本文系统评估了34种分词器,包括19种化学领域特定的分词器,揭示了它们在SMILES分子表示覆盖率方面的显著差距。为了评估分词器选择的影响,我们引入了n-gram语言模型作为低成本代理,并通过预训练和微调18个RoBERTa风格的编码器进行分子性质预测来验证其有效性。为了克服现有分词器的局限性,我们提出了两种新的分词器——Smirk和Smirk-GPE,它们完全覆盖了OpenSMILES规范。所提出的分词器系统地整合了核、电子和几何自由度,促进了在药理学、农业、生物学和储能领域的应用。我们的结果强调了在化学信息学中对开放词汇建模和化学多样性基准的需求。
🔬 方法详解
问题定义:现有分子Foundation Model依赖的分词器存在词汇表封闭的问题,导致模型无法有效处理和理解整个化学分子空间。现有的分词器在SMILES表示的覆盖率方面存在显著差距,限制了模型的泛化能力和性能。
核心思路:核心思路是设计一种新的分词器,能够完全覆盖OpenSMILES规范,从而解决现有分词器词汇表封闭的问题。通过整合核、电子和几何自由度,使得模型能够更好地理解分子的结构和性质。
技术框架:该研究首先系统评估了34种分词器在SMILES分子表示上的覆盖率。然后,引入n-gram语言模型作为低成本代理来评估分词器选择的影响。接着,提出了两种新的分词器Smirk和Smirk-GPE。最后,通过预训练和微调RoBERTa风格的编码器进行分子性质预测,验证了新分词器的有效性。
关键创新:最重要的创新点在于提出了Smirk和Smirk-GPE两种新的分词器,它们能够完全覆盖OpenSMILES规范,解决了现有分词器词汇表封闭的问题。与现有方法相比,新分词器能够更好地处理和理解分子结构,从而提升分子Foundation Model的性能。
关键设计:Smirk和Smirk-GPE分词器的设计关键在于对OpenSMILES规范的完全覆盖,以及对核、电子和几何自由度的系统整合。具体的技术细节包括如何将SMILES字符串分解为有意义的子单元,以及如何将这些子单元映射到模型的词汇表中。此外,n-gram语言模型的选择和RoBERTa编码器的预训练和微调策略也是关键的设计要素。
🖼️ 关键图片
📊 实验亮点
该研究通过系统评估34种分词器,揭示了现有分词器在SMILES分子表示覆盖率方面的显著差距。提出的Smirk和Smirk-GPE分词器能够完全覆盖OpenSMILES规范,有效提升了分子Foundation Model的性能。通过预训练和微调RoBERTa编码器进行分子性质预测,验证了新分词器的有效性。
🎯 应用场景
该研究成果可广泛应用于药理学、农业、生物学和储能等领域。通过提升分子Foundation Model对化学空间的覆盖率,可以加速新材料的发现和分子设计,从而推动相关领域的发展。未来,该研究有望促进更加高效和精确的药物研发、农药设计以及新型储能材料的开发。
📄 摘要(原文)
Text-based foundation models have become an important part of scientific discovery, with molecular foundation models accelerating advancements in material science and molecular design.However, existing models are constrained by closed-vocabulary tokenizers that capture only a fraction of molecular space. In this work, we systematically evaluate 34 tokenizers, including 19 chemistry-specific ones, and reveal significant gaps in their coverage of the SMILES molecular representation. To assess the impact of tokenizer choice, we introduce n-gram language models as a low-cost proxy and validate their effectiveness by pretraining and finetuning 18 RoBERTa-style encoders for molecular property prediction. To overcome the limitations of existing tokenizers, we propose two new tokenizers -- Smirk and Smirk-GPE -- with full coverage of the OpenSMILES specification. The proposed tokenizers systematically integrate nuclear, electronic, and geometric degrees of freedom; facilitating applications in pharmacology, agriculture, biology, and energy storage. Our results highlight the need for open-vocabulary modeling and chemically diverse benchmarks in cheminformatics.