Crowdsourcing-Based Knowledge Graph Construction for Drug Side Effects Using Large Language Models with an Application on Semaglutide
作者: Zhijie Duan, Kai Wei, Zhaoqian Xue, Jiayan Zhou, Shu Yang, Siyuan Ma, Jin Jin, Lingyao li
分类: cs.AI, cs.SI
发布日期: 2025-04-06 (更新: 2025-04-08)
💡 一句话要点
利用大型语言模型和众包构建药物副作用知识图谱,以司美格鲁肽为例。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 药物警戒 知识图谱 大型语言模型 社交媒体挖掘 药物副作用 众包 司美格鲁肽
📋 核心要点
- 社交媒体蕴含丰富的真实世界数据,为药物警戒提供了宝贵的患者体验信息,但从中挖掘非结构化和嘈杂的数据极具挑战。
- 该论文提出利用大型语言模型从社交媒体提取药物副作用,并构建知识图谱,从而系统地分析药物副作用。
- 以司美格鲁肽为例,从Reddit数据构建知识图谱,分析了不同品牌副作用随时间变化,并与FAERS数据验证,提供了新的患者视角。
📝 摘要(中文)
本文提出了一种系统性框架,利用大型语言模型(LLMs)从社交媒体中提取药物副作用信息,并将其组织成知识图谱(KG),从而进行药物警戒。该框架应用于司美格鲁肽的减肥副作用研究,数据来源于Reddit。通过构建的知识图谱,对不同品牌司美格鲁肽的副作用随时间的变化进行了全面分析。研究结果与FAERS数据库中报告的不良事件进行了比较验证,为医疗专业人员和患者提供了重要的、以患者为中心的司美格鲁肽副作用见解,补充了其安全性概况和当前的知识库。该研究证明了使用LLMs将社交媒体数据转化为结构化KG以进行药物警戒的可行性。
🔬 方法详解
问题定义:现有药物警戒系统依赖于结构化数据,如FAERS数据库,但社交媒体上存在大量未被利用的患者报告的副作用信息。从非结构化、噪声大的社交媒体文本中提取药物副作用信息并进行分析,是一个具有挑战性的问题。现有方法难以有效利用这些信息,缺乏从患者角度全面了解药物副作用的手段。
核心思路:利用大型语言模型(LLMs)强大的自然语言处理能力,从社交媒体文本中自动提取药物和副作用之间的关系。通过众包的方式对LLM提取的结果进行验证和修正,提高知识图谱的准确性和可靠性。将提取的信息构建成知识图谱,便于进行结构化查询和分析。
技术框架:该框架包含以下主要阶段:1) 数据收集:从Reddit等社交媒体平台收集与目标药物相关的帖子和评论。2) 信息提取:使用LLMs从文本中提取药物和副作用实体,以及它们之间的关系。3) 知识图谱构建:将提取的实体和关系构建成知识图谱。4) 众包验证:通过众包平台,邀请领域专家或普通用户对LLM提取的结果进行验证和修正。5) 知识图谱分析:利用构建的知识图谱,进行药物副作用的趋势分析、品牌比较等。
关键创新:该研究的关键创新在于将大型语言模型和众包相结合,用于从社交媒体数据中构建药物副作用知识图谱。与传统的手工标注或基于规则的方法相比,该方法能够更高效、更准确地提取信息。此外,通过众包验证,可以有效提高知识图谱的质量。
关键设计:论文中使用了特定的LLM模型(具体模型未提及,属于未知信息)进行信息抽取,并设计了合适的prompt工程来指导LLM的抽取过程。众包验证环节设计了清晰的任务指南和质量控制机制,以确保验证结果的可靠性。知识图谱的构建采用了标准的三元组表示方法(实体1,关系,实体2)。
🖼️ 关键图片
📊 实验亮点
该研究成功地利用大型语言模型和众包构建了司美格鲁肽的副作用知识图谱。通过对知识图谱的分析,揭示了不同品牌司美格鲁肽的副作用随时间的变化趋势,并与FAERS数据库的数据进行了验证,验证了该方法的有效性。具体性能数据和提升幅度在摘要中未明确提及,属于未知信息。
🎯 应用场景
该研究成果可应用于药物警戒、药物安全监测、患者用药指导等领域。通过分析社交媒体数据,可以更全面地了解药物的真实世界副作用,为医疗专业人员和患者提供更准确的用药信息。此外,该方法还可以扩展到其他领域,如疾病监测、舆情分析等。
📄 摘要(原文)
Social media is a rich source of real-world data that captures valuable patient experience information for pharmacovigilance. However, mining data from unstructured and noisy social media content remains a challenging task. We present a systematic framework that leverages large language models (LLMs) to extract medication side effects from social media and organize them into a knowledge graph (KG). We apply this framework to semaglutide for weight loss using data from Reddit. Using the constructed knowledge graph, we perform comprehensive analyses to investigate reported side effects across different semaglutide brands over time. These findings are further validated through comparison with adverse events reported in the FAERS database, providing important patient-centered insights into semaglutide's side effects that complement its safety profile and current knowledge base of semaglutide for both healthcare professionals and patients. Our work demonstrates the feasibility of using LLMs to transform social media data into structured KGs for pharmacovigilance.