MEDAKA: Construction of Biomedical Knowledge Graphs Using Large Language Models
作者: Asmita Sengupta, David Antony Selby, Sebastian Josef Vollmer, Gerrit Großmann
分类: cs.AI
发布日期: 2025-09-30
备注: 9 pages, 5 figures, 2 tables
🔗 代码/项目: GITHUB
💡 一句话要点
MEDAKA:利用大型语言模型构建生物医学知识图谱,提升药物安全与推荐。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 生物医学知识图谱 大型语言模型 药物说明书 信息抽取 患者安全
📋 核心要点
- 现有生物医学知识图谱侧重于分子相互作用等,忽略了药物说明书中丰富的临床信息。
- MEDAKA利用网络爬虫和大型语言模型,从非结构化药物说明书中自动构建知识图谱。
- MEDAKA数据集包含副作用、剂量等临床属性,并通过实验验证了其覆盖范围和质量。
📝 摘要(中文)
知识图谱(KGs)越来越多地被用于以结构化、可解释的格式表示生物医学信息。然而,现有的生物医学知识图谱通常狭隘地关注分子相互作用或不良事件,忽略了药物说明书中丰富的临床数据。本文提出了(1)一个可定制的端到端流程,利用网络爬虫和大型语言模型从非结构化在线内容中创建知识图谱;(2)一个名为MEDAKA的精选数据集,通过将该方法应用于公开的药物说明书生成。该数据集捕获了临床相关的属性,如副作用、警告、禁忌症、成分、剂量指南、储存说明和物理特性。我们通过人工检查和LLM-as-a-Judge框架评估了它,并将其覆盖范围与现有的生物医学知识图谱和数据库进行了比较。我们期望MEDAKA能够支持患者安全监测和药物推荐等任务。该流程也可用于从其他领域的非结构化文本中构建知识图谱。代码和数据集可在https://github.com/medakakg/medaka获取。
🔬 方法详解
问题定义:现有生物医学知识图谱的构建存在信息覆盖范围窄的问题,特别是缺乏对药物说明书中临床相关信息的有效整合。现有的知识图谱往往侧重于分子层面的相互作用,而忽略了药物的副作用、剂量、禁忌症等对临床实践至关重要的信息。因此,如何从非结构化的药物说明书中提取并构建包含丰富临床信息的知识图谱是一个亟待解决的问题。
核心思路:MEDAKA的核心思路是利用大型语言模型(LLM)强大的自然语言理解和生成能力,结合网络爬虫技术,自动化地从公开的药物说明书中提取关键信息,并将其转化为结构化的知识图谱。这种方法旨在克服传统知识图谱构建过程中人工标注成本高、信息覆盖范围有限等问题。
技术框架:MEDAKA的整体框架包含以下几个主要阶段:1) 数据爬取:使用网络爬虫从公开的药物说明书网站上抓取文本数据。2) 信息抽取:利用大型语言模型对抓取的文本进行分析,识别并提取关键的临床属性,如副作用、剂量、禁忌症等。3) 知识图谱构建:将提取的信息转化为知识图谱的节点和边,构建包含药物、属性和关系的结构化知识表示。4) 知识图谱评估:通过人工检查和LLM-as-a-Judge框架对构建的知识图谱进行评估,验证其质量和覆盖范围。
关键创新:MEDAKA的关键创新在于其端到端的自动化知识图谱构建流程,该流程结合了网络爬虫和大型语言模型,能够高效地从非结构化文本中提取并整合临床信息。与传统方法相比,MEDAKA显著降低了人工标注的成本,并提高了知识图谱的构建效率和信息覆盖范围。此外,利用LLM-as-a-Judge框架进行知识图谱评估也是一个创新点,可以自动化地评估知识图谱的质量。
关键设计:MEDAKA的关键设计包括:1) LLM的选择与微调:选择合适的预训练大型语言模型,并可能针对药物说明书的特点进行微调,以提高信息抽取的准确率。2) Prompt工程:设计有效的prompt,引导LLM提取所需的临床属性。3) 知识图谱的schema设计:定义知识图谱的节点类型(如药物、副作用、剂量)和关系类型(如“引起”、“用于治疗”),确保知识图谱的结构化和可扩展性。4) 评估指标的选择:选择合适的评估指标,如准确率、召回率和F1值,来衡量知识图谱的质量。
🖼️ 关键图片
📊 实验亮点
MEDAKA数据集通过人工检查和LLM-as-a-Judge框架进行了评估,结果表明其能够有效捕获药物说明书中重要的临床信息。与现有生物医学知识图谱和数据库相比,MEDAKA在信息覆盖范围上具有优势,能够提供更全面、更细致的药物相关知识。具体性能数据未知,但论文强调了其在覆盖范围上的提升。
🎯 应用场景
MEDAKA构建的生物医学知识图谱具有广泛的应用前景,例如:患者安全监测,通过分析药物的副作用和禁忌症,帮助医生做出更明智的用药决策;药物推荐,根据患者的病情和药物的特性,推荐合适的药物;药物研发,为研究人员提供药物作用机制和潜在靶点的线索。此外,该方法还可以推广到其他领域,用于从非结构化文本中构建知识图谱。
📄 摘要(原文)
Knowledge graphs (KGs) are increasingly used to represent biomedical information in structured, interpretable formats. However, existing biomedical KGs often focus narrowly on molecular interactions or adverse events, overlooking the rich data found in drug leaflets. In this work, we present (1) a hackable, end-to-end pipeline to create KGs from unstructured online content using a web scraper and an LLM; and (2) a curated dataset, MEDAKA, generated by applying this method to publicly available drug leaflets. The dataset captures clinically relevant attributes such as side effects, warnings, contraindications, ingredients, dosage guidelines, storage instructions and physical characteristics. We evaluate it through manual inspection and with an LLM-as-a-Judge framework, and compare its coverage with existing biomedical KGs and databases. We expect MEDAKA to support tasks such as patient safety monitoring and drug recommendation. The pipeline can also be used for constructing KGs from unstructured texts in other domains. Code and dataset are available at https://github.com/medakakg/medaka.