MEDAKA: Construction of Biomedical Knowledge Graphs Using Large Language Models
作者: Asmita Sengupta, David Antony Selby, Sebastian Josef Vollmer, Gerrit Großmann
分类: cs.AI
发布日期: 2025-09-30
备注: 9 pages, 5 figures, 2 tables
🔗 代码/项目: GITHUB
💡 一句话要点
MEDAKA:利用大型语言模型构建生物医学知识图谱,提升药物安全与推荐。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 知识图谱 大型语言模型 生物医学 药物信息 信息抽取
📋 核心要点
- 现有生物医学知识图谱侧重分子相互作用,忽略药物说明书中的丰富临床数据,限制了其应用。
- MEDAKA利用网络爬虫和大型语言模型,从非结构化药物说明书中自动构建知识图谱。
- MEDAKA数据集包含副作用、剂量等临床属性,并通过人工和LLM评估,验证了其有效性。
📝 摘要(中文)
知识图谱(KGs)越来越多地被用于以结构化、可解释的格式表示生物医学信息。然而,现有的生物医学知识图谱通常狭隘地关注分子相互作用或不良事件,忽略了药物说明书中丰富的临床数据。本文提出了(1)一个可定制的端到端流程,利用网络爬虫和大型语言模型从非结构化在线内容中创建知识图谱;(2)一个名为MEDAKA的精选数据集,该数据集通过将上述方法应用于公开的药物说明书而生成。该数据集捕获了临床相关的属性,如副作用、警告、禁忌症、成分、剂量指南、储存说明和物理特性。我们通过人工检查和LLM-as-a-Judge框架评估了该数据集,并将其覆盖范围与现有的生物医学知识图谱和数据库进行了比较。我们期望MEDAKA能够支持患者安全监测和药物推荐等任务。该流程也可用于从其他领域的非结构化文本中构建知识图谱。代码和数据集可在https://github.com/medakakg/medaka获取。
🔬 方法详解
问题定义:现有生物医学知识图谱的构建往往依赖于人工标注或结构化数据库,覆盖范围有限,难以捕捉药物说明书中蕴含的丰富信息,例如副作用、禁忌症等。这限制了知识图谱在患者安全监测、药物推荐等方面的应用。因此,需要一种能够自动从非结构化文本中提取临床相关信息的知识图谱构建方法。
核心思路:论文的核心思路是利用大型语言模型(LLM)强大的自然语言理解和生成能力,结合网络爬虫技术,自动从公开的药物说明书中提取关键信息,并将其转化为结构化的知识图谱。这种方法能够显著降低人工标注成本,并扩大知识图谱的覆盖范围。
技术框架:MEDAKA的整体架构包含以下几个主要阶段:1) 数据爬取:使用网络爬虫从公开的药物说明书网站上抓取文本数据。2) 信息抽取:利用大型语言模型(LLM)从文本数据中提取实体和关系,例如药物名称、副作用、剂量等。3) 知识图谱构建:将提取的实体和关系存储到知识图谱中,形成结构化的知识表示。4) 知识图谱评估:通过人工检查和LLM-as-a-Judge框架评估知识图谱的质量和覆盖范围。
关键创新:MEDAKA的关键创新在于将大型语言模型应用于生物医学知识图谱的自动构建。与传统的基于规则或机器学习的方法相比,LLM能够更好地理解自然语言文本,并提取更准确、更全面的信息。此外,MEDAKA还提出了一个可定制的端到端流程,可以方便地应用于其他领域的知识图谱构建。
关键设计:论文中没有详细描述LLM的具体选择和训练细节,这部分信息未知。但可以推测,LLM的选择需要考虑其在自然语言理解和生成方面的能力,以及在生物医学领域的预训练情况。此外,信息抽取的prompt设计、实体和关系的定义、以及知识图谱的存储方式等都是影响MEDAKA性能的关键因素。具体的参数设置、损失函数、网络结构等技术细节在论文中没有明确给出。
📊 实验亮点
MEDAKA数据集通过人工检查和LLM-as-a-Judge框架评估,验证了其质量和覆盖范围。与现有的生物医学知识图谱和数据库相比,MEDAKA能够覆盖更多临床相关的属性,例如副作用、剂量指南等。具体的性能数据和提升幅度在论文中没有明确给出,这部分信息未知。
🎯 应用场景
MEDAKA构建的生物医学知识图谱可应用于多种场景,例如患者安全监测,通过分析药物副作用和禁忌症,提前预警潜在风险;药物推荐,根据患者的病史和药物信息,推荐更合适的药物;药物研发,帮助研究人员发现新的药物靶点和潜在的药物相互作用。此外,该方法还可推广到其他领域的知识图谱构建。
📄 摘要(原文)
Knowledge graphs (KGs) are increasingly used to represent biomedical information in structured, interpretable formats. However, existing biomedical KGs often focus narrowly on molecular interactions or adverse events, overlooking the rich data found in drug leaflets. In this work, we present (1) a hackable, end-to-end pipeline to create KGs from unstructured online content using a web scraper and an LLM; and (2) a curated dataset, MEDAKA, generated by applying this method to publicly available drug leaflets. The dataset captures clinically relevant attributes such as side effects, warnings, contraindications, ingredients, dosage guidelines, storage instructions and physical characteristics. We evaluate it through manual inspection and with an LLM-as-a-Judge framework, and compare its coverage with existing biomedical KGs and databases. We expect MEDAKA to support tasks such as patient safety monitoring and drug recommendation. The pipeline can also be used for constructing KGs from unstructured texts in other domains. Code and dataset are available at https://github.com/medakakg/medaka.