Accelerating Antibiotic Discovery with Large Language Models and Knowledge Graphs

📄 arXiv: 2503.16655v2 📥 PDF

作者: Maxime Delmas, Magdalena Wysocka, Danilo Gusicuma, André Freitas

分类: cs.CL

发布日期: 2025-03-20 (更新: 2025-03-27)

备注: 11 pages, 9 figures, 3 tables fix: table, typos and error analysis


💡 一句话要点

利用大型语言模型和知识图谱加速抗生素发现

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 抗生素发现 大型语言模型 知识图谱 抗生素耐药性 药物研发

📋 核心要点

  1. 抗生素耐药性日益严重,亟需发现新型抗生素,但传统方法成本高、周期长、易重复发现已知化合物。
  2. 论文提出基于大型语言模型的流程,整合生物体和化学文献构建知识图谱,检测抗生素活性证据,避免重复研究。
  3. 实验结果表明,该流程能有效审查证据、减少假阴性,加速抗生素发现的决策过程,并公开知识图谱和用户界面。

📝 摘要(中文)

发现新型抗生素对于解决日益严重的抗生素耐药性(AMR)至关重要。然而,制药行业面临着高成本(超过10亿美元)、漫长的周期和高失败率,而已知化合物的重复发现更是雪上加霜。我们提出了一种基于大型语言模型的流程,作为一个警报系统,检测先前存在的抗生素活性证据,以防止代价高昂的重复发现。该系统将生物体和化学文献整合到一个知识图谱(KG)中,确保分类学解析、同义词处理和多层次的证据分类。我们用一个包含73个潜在抗生素生产生物体的私有列表测试了该流程,公开了12个阴性结果用于评估。结果突出了该流程在证据审查、减少假阴性和加速决策方面的有效性。用于阴性结果的知识图谱和用于交互式探索的用户界面将公开提供。

🔬 方法详解

问题定义:论文旨在解决抗生素发现过程中重复发现已知化合物的问题,这导致了高昂的研发成本和漫长的研发周期。现有方法缺乏有效的早期预警机制,无法充分利用已有的文献信息和实验数据,导致资源浪费。

核心思路:论文的核心思路是构建一个基于大型语言模型和知识图谱的自动化流程,该流程能够从海量的文献数据中提取并整合关于生物体和化学物质的抗生素活性信息,从而在早期阶段识别出潜在的重复研究,避免不必要的研发投入。

技术框架:该流程主要包含以下几个模块:1) 文献数据收集与预处理:收集关于生物体和化学物质的文献数据,进行文本清洗和标准化处理。2) 知识图谱构建:将文献数据中的实体(如生物体、化学物质、疾病等)和关系(如抑制、产生等)整合到知识图谱中,实现知识的结构化表示。3) 大型语言模型应用:利用大型语言模型对知识图谱中的信息进行推理和预测,识别潜在的抗生素活性证据。4) 证据分类与评估:对大型语言模型的预测结果进行分类和评估,确定其可靠性和相关性。5) 用户界面:提供用户友好的交互界面,方便用户查询和浏览知识图谱中的信息。

关键创新:该论文的关键创新在于将大型语言模型和知识图谱相结合,构建了一个自动化、高效的抗生素发现预警系统。与传统方法相比,该系统能够更全面、更准确地识别潜在的抗生素活性证据,从而避免重复研究,降低研发成本。

关键设计:知识图谱的构建过程中,需要仔细考虑实体和关系的定义,以及如何从文献数据中准确提取这些信息。大型语言模型的选择和训练也至关重要,需要选择合适的模型架构和训练数据,以提高模型的预测准确率。此外,证据分类和评估的标准也需要仔细设计,以确保预测结果的可靠性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该研究通过对73个潜在抗生素生产生物体的私有列表进行测试,成功识别出12个阴性结果,证明了该流程在证据审查方面的有效性。该流程能够减少假阴性,加速决策过程,为抗生素研发节省大量时间和成本。公开的知识图谱和用户界面将进一步促进该领域的研究。

🎯 应用场景

该研究成果可应用于制药公司的抗生素研发部门,帮助他们快速筛选潜在的抗生素生产生物体,避免重复研究,降低研发成本,加速新型抗生素的发现。此外,该方法还可以扩展到其他药物发现领域,例如抗病毒药物、抗肿瘤药物等,具有广阔的应用前景。

📄 摘要(原文)

The discovery of novel antibiotics is critical to address the growing antimicrobial resistance (AMR). However, pharmaceutical industries face high costs (over $1 billion), long timelines, and a high failure rate, worsened by the rediscovery of known compounds. We propose an LLM-based pipeline that acts as an alarm system, detecting prior evidence of antibiotic activity to prevent costly rediscoveries. The system integrates organism and chemical literature into a Knowledge Graph (KG), ensuring taxonomic resolution, synonym handling, and multi-level evidence classification. We tested the pipeline on a private list of 73 potential antibiotic-producing organisms, disclosing 12 negative hits for evaluation. The results highlight the effectiveness of the pipeline for evidence reviewing, reducing false negatives, and accelerating decision-making. The KG for negative hits and the user interface for interactive exploration will be made publicly available.