Explainable Biomedical Hypothesis Generation via Retrieval Augmented Generation enabled Large Language Models

📄 arXiv: 2407.12888v1 📥 PDF

作者: Alexander R. Pelletier, Joseph Ramirez, Irsyad Adam, Simha Sankar, Yu Yan, Ding Wang, Dylan Steinecke, Wei Wang, Peipei Ping

分类: cs.CL, cs.AI

发布日期: 2024-07-17


💡 一句话要点

提出RUGGED框架,利用RAG-LLM进行可解释的生物医学假设生成,辅助药物发现。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 生物医学信息检索 知识图谱 大型语言模型 检索增强生成 药物发现 假设生成 可解释性

📋 核心要点

  1. 现有方法难以有效处理海量的生物医学信息,阻碍了研究人员进行知识整合和假设生成。
  2. RUGGED框架利用图引导的可解释疾病区分,结合检索增强生成(RAG)的大型语言模型,减少幻觉。
  3. RUGGED在心律失常性心肌病和扩张型心肌病的治疗药物评估和推荐方面展示了其能力。

📝 摘要(中文)

当前生物医学信息量巨大,研究人员难以有效消化和理解这些发现。大型语言模型(LLMs)已成为应对这一复杂数据环境的强大工具。然而,LLMs可能产生幻觉,因此检索增强生成(RAG)对于获得准确信息至关重要。本文提出了RUGGED(Retrieval Under Graph-Guided Explainable disease Distinction),这是一个全面的工作流程,旨在通过知识整合和假设生成来支持研究人员,识别已验证的路径。来自出版物和知识库的相关生物医学信息通过文本挖掘关联分析和疾病节点上的可解释图预测模型进行审查、整合和提取,预测药物和疾病之间的潜在联系。这些分析以及生物医学文本被整合到一个框架中,该框架通过RAG-LLM促进用户导向的机制阐明和假设探索。临床用例表明RUGGED能够评估和推荐治疗心律失常性心肌病(ACM)和扩张型心肌病(DCM)的药物,分析处方药物的分子相互作用和未被探索的用途。该平台最大限度地减少了LLM幻觉,提供了可操作的见解,并改进了新型疗法的研究。

🔬 方法详解

问题定义:当前生物医学信息爆炸式增长,研究人员面临难以有效整合和利用这些信息的挑战。现有方法,特别是直接使用大型语言模型(LLMs),容易产生幻觉,导致不准确或不可靠的假设生成。因此,需要一种能够提供准确、可解释的生物医学知识,并辅助研究人员进行假设生成的方法。

核心思路:RUGGED的核心思路是结合检索增强生成(RAG)和图神经网络,利用知识图谱来指导LLM的生成过程,从而减少LLM的幻觉,并提供可解释的生物医学假设。通过检索相关的生物医学信息,并利用图神经网络预测药物和疾病之间的潜在联系,RUGGED能够为LLM提供更准确的上下文信息,从而生成更可靠的假设。

技术框架:RUGGED框架包含以下主要模块:1) 生物医学信息检索模块:从出版物和知识库中检索相关的生物医学信息。2) 文本挖掘关联分析模块:通过文本挖掘技术提取药物和疾病之间的关联。3) 可解释图预测模型模块:利用图神经网络预测药物和疾病之间的潜在联系。4) RAG-LLM模块:将检索到的信息和图预测结果输入到RAG-LLM中,生成生物医学假设。5) 用户交互界面:允许用户指导机制阐明和假设探索。

关键创新:RUGGED的关键创新在于结合了图神经网络和RAG-LLM,利用知识图谱来指导LLM的生成过程。与传统的RAG方法相比,RUGGED能够提供更准确的上下文信息,从而减少LLM的幻觉。此外,RUGGED还提供了可解释的图预测结果,帮助研究人员理解LLM生成的假设。

关键设计:RUGGED的关键设计包括:1) 使用图神经网络进行药物和疾病之间的关联预测,例如GCN或GAT。2) 设计合适的损失函数来训练图神经网络,例如基于图结构的对比学习损失。3) 选择合适的LLM,例如BioBERT或PubMedBERT,并进行微调。4) 设计有效的提示工程(Prompt Engineering),引导LLM生成有用的生物医学假设。

📊 实验亮点

RUGGED在心律失常性心肌病(ACM)和扩张型心肌病(DCM)的治疗药物评估和推荐方面进行了验证。实验结果表明,RUGGED能够有效地分析处方药物的分子相互作用和未被探索的用途,并为研究人员提供可操作的见解,从而改进新型疗法的研究。具体性能数据未知。

🎯 应用场景

RUGGED可应用于药物发现、疾病机制研究、个性化医疗等领域。它可以帮助研究人员快速评估和推荐治疗特定疾病的药物,分析药物的分子相互作用和未被探索的用途,从而加速新药研发过程,并为患者提供更精准的治疗方案。该平台还可用于教育和培训,帮助学生和研究人员更好地理解复杂的生物医学知识。

📄 摘要(原文)

The vast amount of biomedical information available today presents a significant challenge for investigators seeking to digest, process, and understand these findings effectively. Large Language Models (LLMs) have emerged as powerful tools to navigate this complex and challenging data landscape. However, LLMs may lead to hallucinatory responses, making Retrieval Augmented Generation (RAG) crucial for achieving accurate information. In this protocol, we present RUGGED (Retrieval Under Graph-Guided Explainable disease Distinction), a comprehensive workflow designed to support investigators with knowledge integration and hypothesis generation, identifying validated paths forward. Relevant biomedical information from publications and knowledge bases are reviewed, integrated, and extracted via text-mining association analysis and explainable graph prediction models on disease nodes, forecasting potential links among drugs and diseases. These analyses, along with biomedical texts, are integrated into a framework that facilitates user-directed mechanism elucidation as well as hypothesis exploration through RAG-enabled LLMs. A clinical use-case demonstrates RUGGED's ability to evaluate and recommend therapeutics for Arrhythmogenic Cardiomyopathy (ACM) and Dilated Cardiomyopathy (DCM), analyzing prescribed drugs for molecular interactions and unexplored uses. The platform minimizes LLM hallucinations, offers actionable insights, and improves the investigation of novel therapeutics.