Tabular foundation models for in-context prediction of molecular properties
作者: Karim K. Ben Hicham, Jan G. Rittig, Martin Grohe, Alexander Mitsos
分类: cs.LG, physics.chem-ph
发布日期: 2026-04-17
💡 一句话要点
提出基于表格型预训练模型的分子性质上下文预测方法,无需微调且高效。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 分子性质预测 表格型预训练模型 上下文学习 分子表征 药物发现
📋 核心要点
- 分子性质预测在多个领域至关重要,但小数据集限制了传统机器学习方法的性能。
- 论文提出利用表格型预训练模型(TFMs)进行上下文学习,无需微调即可预测分子性质。
- 实验表明,该方法在药物和化学工程数据集上表现出色,计算成本更低,胜过微调方法。
📝 摘要(中文)
精确的分子性质预测在药物发现、催化和过程设计中至关重要,但实际应用常受限于小数据集。分子预训练模型通过学习可迁移的分子表征提供了一个有希望的方向;然而,它们通常涉及特定任务的微调,需要机器学习专业知识,并且常常无法胜过经典基线。表格型预训练模型(TFMs)提供了一种根本不同的范例:它们通过上下文学习执行预测,从而无需特定任务的训练即可进行推理。本文在低到中等数据量的情况下,在标准化的药物基准和化学工程数据集上评估了TFMs。评估了冻结的分子预训练模型表征以及经典描述符和指纹。在基准测试中,与微调相比,该方法显示出出色的预测性能,同时降低了计算成本,这些优势也转移到了实际的工程数据设置中。特别是,将TFMs与CheMeleon嵌入相结合,在30个MoleculeACE任务上产生了高达100%的胜率,而紧凑的RDKit2d和Mordred描述符提供了强大的基于描述符的替代方案。分子表征成为TFM性能的关键决定因素,分子预训练模型嵌入和2D描述符集都在许多任务上提供了相对于经典分子指纹的显着收益。这些结果表明,使用TFMs进行上下文学习为实际应用中的性质预测提供了一种高度准确且经济高效的替代方案。
🔬 方法详解
问题定义:分子性质预测是药物发现、催化和过程设计中的核心问题。然而,实际应用中数据集往往较小,传统的分子预训练模型需要针对特定任务进行微调,这不仅耗费计算资源,还需要专业的机器学习知识,并且性能提升有限。
核心思路:论文的核心思路是利用表格型预训练模型(TFMs)的上下文学习能力,直接根据少量样本进行分子性质预测,而无需针对特定任务进行微调。这种方法旨在降低计算成本,简化流程,并提高在小数据集上的预测精度。
技术框架:该方法主要包含以下几个阶段:首先,选择合适的分子表征方法,包括分子预训练模型嵌入(如CheMeleon)、经典描述符(如RDKit2d和Mordred)以及分子指纹。然后,将这些分子表征输入到TFM中,利用TFM的上下文学习能力,根据给定的上下文样本(即少量已知分子及其性质)预测未知分子的性质。最后,评估预测结果的准确性和效率。
关键创新:该方法最重要的技术创新点在于将表格型预训练模型应用于分子性质预测,并利用其上下文学习能力避免了传统方法中耗时的微调过程。此外,论文还比较了不同分子表征方法对TFM性能的影响,发现分子预训练模型嵌入和2D描述符集能够显著提升预测精度。
关键设计:论文的关键设计包括选择合适的TFM架构(具体架构未知,论文中未明确说明),以及选择合适的分子表征方法。实验中比较了CheMeleon嵌入、RDKit2d和Mordred描述符以及分子指纹等多种表征方法,并评估了它们对TFM性能的影响。此外,论文还关注了低到中等数据量的情况,并针对实际工程数据进行了评估。
🖼️ 关键图片
📊 实验亮点
实验结果表明,将TFMs与CheMeleon嵌入相结合,在30个MoleculeACE任务上获得了高达100%的胜率。同时,紧凑的RDKit2d和Mordred描述符也提供了强大的替代方案。分子预训练模型嵌入和2D描述符集在许多任务上都显著优于经典的分子指纹,表明分子表征是影响TFM性能的关键因素。
🎯 应用场景
该研究成果可广泛应用于药物发现、催化剂设计和化学过程优化等领域。通过利用表格型预训练模型进行分子性质预测,可以加速新材料的开发过程,降低实验成本,并为化学工程师提供更准确的预测工具。该方法无需针对特定任务进行微调的特性,使其更易于部署和使用,具有广阔的应用前景。
📄 摘要(原文)
Accurate molecular property prediction is central to drug discovery, catalysis, and process design, yet real-world applications are often limited by small datasets. Molecular foundation models provide a promising direction by learning transferable molecular representations; however, they typically involve task-specific fine-tuning, require machine learning expertise, and often fail to outperform classical baselines. Tabular foundation models (TFMs) offer a fundamentally different paradigm: they perform predictions through in-context learning, enabling inference without task-specific training. Here, we evaluate TFMs in the low- to medium-data regime across both standardized pharmaceutical benchmarks and chemical engineering datasets. We evaluate both frozen molecular foundation model representations, as well as classical descriptors and fingerprints. Across the benchmarks, the approach shows excellent predictive performance while reducing computational cost, compared to fine-tuning, with these advantages also transferring to practical engineering data settings. In particular, combining TFMs with CheMeleon embeddings yields up to 100\% win rates on 30 MoleculeACE tasks, while compact RDKit2d and Mordred descriptors provide strong descriptor-based alternatives. Molecular representation emerges as a key determinant in TFM performance, with molecular foundation model embeddings and 2D descriptor sets both providing substantial gains over classic molecular fingerprints on many tasks. These results suggest that in-context learning with TFMs provides a highly accurate and cost-efficient alternative for property prediction in practical applications.