RAG-based Architectures for Drug Side Effect Retrieval in LLMs

作者: Shad Nygren, Pinar Avci, Andre Daniels, Reza Rassol, Afshin Beheshti, Diego Galeano

分类: cs.IR, cs.AI, cs.CL

发布日期: 2025-07-18

💡 一句话要点

提出GraphRAG架构，提升LLM在药物副作用检索中的准确性

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 药物副作用 大型语言模型 检索增强生成 知识图谱 药物警戒

📋 核心要点

现有LLM在药物副作用检索中受限于黑盒数据、幻觉问题和领域知识不足，影响了其可靠性。
论文提出RAG和GraphRAG架构，将药物副作用知识融入LLM，增强其检索能力。
实验结果表明，GraphRAG在药物副作用检索中实现了接近完美的准确性，显著提升了性能。

📝 摘要（中文）

药物副作用是全球健康的重要问题，需要先进的方法进行准确检测和分析。大型语言模型（LLMs）虽然提供了有前景的对话界面，但其固有的局限性，包括依赖黑盒训练数据、容易产生幻觉以及缺乏领域特定知识，限制了它们在药物警戒等专业领域的可靠性。为了解决这个问题，我们提出了两种架构：检索增强生成（RAG）和GraphRAG，它们将全面的药物副作用知识整合到Llama 3 8B语言模型中。通过对19520个药物副作用关联（涵盖976种药物和3851个副作用术语）的广泛评估，我们的结果表明GraphRAG在药物副作用检索中实现了接近完美的准确性。该框架提供了一种高度准确和可扩展的解决方案，标志着在利用LLMs进行关键药物警戒应用方面取得了重大进展。

🔬 方法详解

问题定义：论文旨在解决大型语言模型（LLMs）在药物副作用检索任务中表现不佳的问题。现有LLMs依赖于通用训练数据，缺乏特定领域的知识，容易产生幻觉，导致在药物警戒等专业领域应用受限。因此，如何提高LLMs在药物副作用检索中的准确性和可靠性是本文要解决的核心问题。

核心思路：论文的核心思路是通过检索增强生成（RAG）的方法，将外部知识库中的药物副作用信息注入到LLM中，从而弥补LLM自身知识的不足，提高其检索准确性。进一步地，论文提出了GraphRAG架构，利用图结构来表示药物和副作用之间的关系，从而更好地利用知识库中的信息。

技术框架：整体架构包含以下几个主要模块：1) 知识库构建：构建包含药物、副作用及其关联关系的知识图谱。2) 查询编码：将用户输入的查询（例如，药物名称）编码成向量表示。3) 知识检索：根据查询向量，从知识图谱中检索相关的药物副作用信息。4) 生成：将检索到的知识与原始查询一起输入到LLM中，生成最终的药物副作用检索结果。RAG和GraphRAG的区别在于知识检索的方式，RAG直接检索文本，而GraphRAG利用图结构进行检索。

关键创新：论文的关键创新在于提出了GraphRAG架构，将图结构引入到RAG框架中。通过图结构，可以更好地表示药物和副作用之间的复杂关系，从而提高知识检索的准确性。与传统的RAG方法相比，GraphRAG能够更有效地利用知识库中的信息，从而提高LLM在药物副作用检索任务中的性能。

关键设计：论文使用了Llama 3 8B作为基础LLM，并构建了一个包含976种药物和3851个副作用术语的知识图谱。在GraphRAG中，使用了图神经网络（GNN）来学习药物和副作用的向量表示，并使用这些向量来计算查询与知识之间的相关性。具体的参数设置和损失函数等技术细节在论文中没有详细描述，属于未知信息。

📊 实验亮点

实验结果表明，GraphRAG在药物副作用检索中实现了接近完美的准确性。在包含19520个药物副作用关联的数据集上，GraphRAG显著优于传统的RAG方法。具体性能数据未知，但摘要中强调了“near-perfect accuracy”，表明提升幅度非常显著。

🎯 应用场景

该研究成果可应用于药物警戒、临床决策支持、药物研发等领域。通过提高LLM在药物副作用检索中的准确性，可以帮助医生和患者更好地了解药物的潜在风险，从而做出更明智的决策。此外，该技术还可以用于药物研发过程中，帮助研究人员发现新的药物副作用，从而提高药物的安全性。

📄 摘要（原文）

Drug side effects are a major global health concern, necessitating advanced methods for their accurate detection and analysis. While Large Language Models (LLMs) offer promising conversational interfaces, their inherent limitations, including reliance on black-box training data, susceptibility to hallucinations, and lack of domain-specific knowledge, hinder their reliability in specialized fields like pharmacovigilance. To address this gap, we propose two architectures: Retrieval-Augmented Generation (RAG) and GraphRAG, which integrate comprehensive drug side effect knowledge into a Llama 3 8B language model. Through extensive evaluations on 19,520 drug side effect associations (covering 976 drugs and 3,851 side effect terms), our results demonstrate that GraphRAG achieves near-perfect accuracy in drug side effect retrieval. This framework offers a highly accurate and scalable solution, signifying a significant advancement in leveraging LLMs for critical pharmacovigilance applications.

RAG-based Architectures for Drug Side Effect Retrieval in LLMs

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理