Do Larger Models Really Win in Drug Discovery? A Benchmark Assessment of Model Scaling in AI-Driven Molecular Property and Activity Prediction

📄 arXiv: 2604.26498v1 📥 PDF

作者: Jinjiang Guo

分类: cs.LG, q-bio.QM

发布日期: 2026-04-29


💡 一句话要点

评估分子性质预测中模型规模效应:小型模型在药物发现中仍具竞争力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 药物发现 分子性质预测 模型规模效应 图神经网络 机器学习

📋 核心要点

  1. 现有观点倾向于认为更大的预训练模型在药物发现中优于传统模型,但缺乏充分验证。
  2. 论文通过在多个分子性质和活性预测任务上,对比不同规模和类型的模型性能,评估模型规模效应。
  3. 实验结果表明,小型专用模型在许多任务中表现优异,大型模型并非总是具有普遍优势。

📝 摘要(中文)

分子基础模型和通用大语言模型的快速发展,推动了药物发现领域中以规模为中心的AI观点,即更大的预训练模型将取代紧凑的化学信息学模型和特定任务的图神经网络(GNN)。本文在22个分子性质和活性终点上测试了这一假设,包括公共ADMET和Tox21基准以及两个内部抗感染活性数据集。在结构相似性分离的五重交叉验证下,对167,056个留出任务-分子评估(37,756 ADMET,77,946 Tox21,49,266抗TB和2,088抗疟疾)中,经典机器学习(ML)模型(如RF(ECFP4)和ExtraTrees(RDKit描述符))在10个主要指标任务中胜出,GNN(如GIN和Ligandformer)在9个中胜出,预训练分子序列模型(如MoLFormer和ChemBERTa2)在3个中胜出。基于规则的SAR推理基线(由GPT5.5-SAR和Opus4.7-SAR表示)在预先指定的主要指标下没有胜出。结果表明,紧凑的专用模型对于分子性质和活性预测仍然非常有效。经典ML、GNN和预训练序列模型之间的性能差异通常很小且依赖于终点,而更大或更通用的模型并不提供普遍的预测优势。大型模型可能仍然为零样本推理、SAR解释和假设生成增加价值,但结果表明,预测性能取决于分子表示、归纳偏置、数据状态、终点生物学和验证协议之间的一致性。

🔬 方法详解

问题定义:论文旨在评估在分子性质和活性预测任务中,更大规模的预训练模型是否总是优于传统的、更紧凑的机器学习模型和图神经网络。现有观点倾向于认为模型越大,性能越好,但缺乏充分的实验验证,并且忽略了特定任务和数据特点的影响。

核心思路:论文的核心思路是通过在多个分子性质和活性预测任务上,系统地比较不同规模和类型的模型性能,来验证“更大模型更好”的假设。论文强调了分子表示、归纳偏置、数据状态、终点生物学和验证协议之间的一致性对预测性能的重要性。

技术框架:论文采用了一个全面的评估框架,包括: 1. 数据集选择:使用了包括公共ADMET和Tox21基准以及两个内部抗感染活性数据集在内的22个分子性质和活性终点。 2. 模型选择:选择了包括经典机器学习模型(如RF和ExtraTrees)、图神经网络(如GIN和Ligandformer)以及预训练分子序列模型(如MoLFormer和ChemBERTa2)在内的多种模型。 3. 评估协议:采用了结构相似性分离的五重交叉验证,以确保评估的可靠性。 4. 性能指标:使用了多种性能指标来评估模型的预测能力。

关键创新:论文的关键创新在于对“更大模型更好”的假设进行了系统的实验验证,并揭示了小型专用模型在许多任务中仍然具有竞争力的事实。论文强调了分子表示、归纳偏置、数据状态、终点生物学和验证协议之间的一致性对预测性能的重要性,这挑战了当前以规模为中心的AI观点。

关键设计:论文的关键设计包括: 1. 结构相似性分离的交叉验证:确保训练集和测试集之间没有高度相似的分子,从而避免了模型过度拟合。 2. 多种模型和数据集的组合:通过在不同的模型和数据集上进行实验,可以更全面地评估模型性能。 3. 多种性能指标的使用:可以更全面地评估模型的预测能力。

📊 实验亮点

实验结果表明,经典机器学习模型在10个主要指标任务中胜出,GNN在9个中胜出,预训练分子序列模型在3个中胜出。这表明,在分子性质和活性预测任务中,小型专用模型仍然具有竞争力,大型模型并非总是具有普遍优势。例如,RF(ECFP4)和ExtraTrees(RDKit描述符)等经典模型在ADMET和Tox21等基准测试中表现出色。

🎯 应用场景

该研究成果对药物发现领域的模型选择具有重要指导意义,有助于研究人员根据具体任务和数据特点选择合适的模型,避免盲目追求大模型。同时,该研究也强调了分子表示、归纳偏置等因素的重要性,为模型设计和优化提供了新的思路,从而加速药物研发进程。

📄 摘要(原文)

The rapid growth of molecular foundation models and general-purpose large language models has encouraged a scale-centric view of artificial intelligence in drug discovery, in which larger pretrained models are expected to supersede compact cheminformatics models and task-specific graph neural networks (GNNs). We test this assumption on 22 molecular property and activity endpoints, including public ADMET and Tox21 benchmarks and two internal anti-infective activity datasets. Across 167,056 held-out task--molecule evaluations under structure-similarity-separated five-fold cross-validation (37,756 ADMET, 77,946 Tox21, 49,266 anti-TB and 2,088 antimalaria), classical machine-learning (ML) models such as RF(ECFP4) and ExtraTrees(RDKit descriptors) win ten primary-metric tasks, GNNs such as GIN and Ligandformer win nine, and pretrained molecular sequence models such as MoLFormer and ChemBERTa2 win three. Rule-based SAR reasoning baselines, represented by GPT5.5-SAR and Opus4.7-SAR, do not win under the prespecified primary metrics, although train-fold-derived SAR knowledge provides measurable but uneven gains for SAR reasoning and interpretation. These results indicate that compact, specialized models remain highly effective for molecular property and activity prediction. The performance differences among classical ML, GNN and pretrained sequence models are often modest and endpoint-dependent, whereas larger or more general models do not provide a universal predictive advantage. Large models may still add value for zero-shot reasoning, SAR interpretation and hypothesis generation, but the results suggest that predictive performance depends on the alignment among molecular representation, inductive bias, data regime, endpoint biology and validation protocol.