Generalist Large Language Models for Molecular Property Prediction: Distilling Knowledge from Specialist Models
作者: Khiem Le, Sreejata Dey, Marcos Martínez Galindo, Vanessa Lopez, Ting Hua, Nitesh V. Chawla, Hoang Thanh Lam
分类: cs.LG
发布日期: 2026-03-12
💡 一句话要点
提出TreeKD知识蒸馏方法,提升通用大语言模型在分子性质预测中的性能
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 分子性质预测 大语言模型 知识蒸馏 树模型 规则提取 自然语言处理 药物发现
📋 核心要点
- 分子性质预测是药物发现的关键,现有大语言模型在该任务中性能不足,难以实际应用。
- TreeKD方法通过知识蒸馏,将树模型学习到的规则转化为自然语言,增强大语言模型的上下文学习能力。
- 实验表明,TreeKD显著提升了大语言模型在ADMET性质预测上的性能,缩小了与专用模型之间的差距。
📝 摘要(中文)
分子性质预测(MPP)是药物发现的核心任务。虽然大型语言模型(LLM)作为MPP的通用模型显示出潜力,但它们目前的性能仍低于实际应用的标准。我们提出了一种新颖的知识蒸馏方法TreeKD,该方法将基于树的专家模型的互补知识转移到LLM中。我们的方法在功能组特征上训练专家决策树,然后将它们学习到的预测规则转化为自然语言,以实现规则增强的上下文学习。这使得LLM能够利用仅从SMILES字符串难以提取的结构见解。我们进一步引入了规则一致性,这是一种受bagging启发的测试时缩放技术,可以集成来自随机森林中不同规则的预测。在TDC基准测试中对22种ADMET性质进行的实验表明,TreeKD显着提高了LLM的性能,缩小了与SOTA专家模型的差距,并朝着用于分子性质预测的实用通用模型迈进。
🔬 方法详解
问题定义:分子性质预测(MPP)是药物发现中的核心问题。现有的大型语言模型(LLM)虽然具备通用性潜力,但在MPP任务上的性能仍低于专用模型,无法满足实际应用需求。主要痛点在于LLM难以有效提取SMILES字符串中的结构信息,导致预测精度受限。
核心思路:论文的核心思路是通过知识蒸馏,将擅长提取结构信息的树模型知识迁移到LLM中。具体而言,首先训练基于功能组特征的决策树专家模型,然后将这些模型学习到的预测规则转化为自然语言,作为LLM的上下文信息,从而增强LLM对分子结构的理解能力。
技术框架:整体框架包含以下几个主要阶段:1) 专家模型训练:使用功能组特征训练多个决策树,构建随机森林。2) 规则提取与转换:从训练好的决策树中提取预测规则,并将这些规则转化为自然语言描述。3) LLM训练:使用包含SMILES字符串和规则描述的文本数据训练LLM,使其学习利用规则信息进行分子性质预测。4) 规则一致性集成:在测试阶段,使用规则一致性方法集成来自不同决策树的预测结果,提高预测的鲁棒性。
关键创新:最重要的技术创新点在于将树模型学习到的结构信息以自然语言规则的形式注入到LLM中。这种方法利用了树模型在结构信息提取方面的优势,同时结合了LLM的语言理解能力,实现了二者的优势互补。与直接使用SMILES字符串作为LLM的输入相比,该方法能够更有效地利用分子结构信息。
关键设计:关键设计包括:1) 使用功能组特征训练决策树,因为功能组与分子性质密切相关。2) 将决策树规则转化为自然语言,以便LLM能够理解和利用这些规则。3) 引入规则一致性,通过集成多个决策树的预测结果来提高预测的稳定性。规则一致性通过对来自随机森林中不同规则的预测进行缩放和集成来实现,类似于bagging的思想。
📊 实验亮点
实验结果表明,TreeKD方法在TDC基准测试的22个ADMET性质预测任务上显著提升了LLM的性能,缩小了与SOTA专用模型之间的差距。具体提升幅度未知,但摘要强调了“substantially improves LLM performance”,表明提升效果显著。
🎯 应用场景
该研究成果可应用于药物发现领域,加速新药研发进程。通过提升大语言模型在分子性质预测方面的性能,可以更准确地预测化合物的生物活性、毒性和药代动力学性质,从而筛选出更具潜力的候选药物,降低研发成本和时间。
📄 摘要(原文)
Molecular Property Prediction (MPP) is a central task in drug discovery. While Large Language Models (LLMs) show promise as generalist models for MPP, their current performance remains below the threshold for practical adoption. We propose TreeKD, a novel knowledge distillation method that transfers complementary knowledge from tree-based specialist models into LLMs. Our approach trains specialist decision trees on functional group features, then verbalizes their learned predictive rules as natural language to enable rule-augmented context learning. This enables LLMs to leverage structural insights that are difficult to extract from SMILES strings alone. We further introduce rule-consistency, a test-time scaling technique inspired by bagging that ensembles predictions across diverse rules from a Random Forest. Experiments on 22 ADMET properties from the TDC benchmark demonstrate that TreeKD substantially improves LLM performance, narrowing the gap with SOTA specialist models and advancing toward practical generalist models for molecular property prediction.