KEDRec-LM: A Knowledge-distilled Explainable Drug Recommendation Large Language Model
作者: Kai Zhang, Rui Zhu, Shutian Ma, Jingwei Xiong, Yejin Kim, Fabricio Murai, Xiaozhong Liu
分类: cs.CL
发布日期: 2025-02-27
💡 一句话要点
提出KEDRec-LM,一种知识蒸馏的可解释药物推荐大语言模型,并构建expRxRec数据集。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 药物推荐 可解释性 大型语言模型 知识蒸馏 指令调优 生物医学NLP expRxRec数据集
📋 核心要点
- 现有药物发现方法缺乏可解释性,限制了其在实际应用中的信任度和可靠性。
- KEDRec-LM通过知识蒸馏,将医学知识融入大型语言模型,实现药物推荐和理由生成。
- 论文构建了expRxRec数据集,并开源KEDRec-LM模型,促进可解释药物发现领域的研究。
📝 摘要(中文)
药物发现是生物医学自然语言处理(NLP)中的一项关键任务,但可解释的药物发现仍未得到充分探索。与此同时,大型语言模型(LLM)在自然语言理解和生成方面表现出了卓越的能力。利用LLM进行可解释的药物发现有可能改善下游任务和实际应用。在本研究中,我们利用开源药物知识图谱、临床试验数据和PubMed出版物,构建了一个用于可解释药物发现任务的综合数据集,名为 extbf{expRxRec}。此外,我们还引入了 extbf{KEDRec-LM},这是一个指令调优的LLM,它从丰富的医学知识语料库中提取知识,用于药物推荐和理由生成。为了鼓励该领域的进一步研究,我们将公开发布数据集和KEDRec-LM。
🔬 方法详解
问题定义:论文旨在解决药物推荐领域中缺乏可解释性的问题。现有方法通常是黑盒模型,无法提供推荐药物的理由,这限制了医生和患者对推荐结果的信任。因此,需要开发一种能够进行药物推荐并提供可解释理由的模型。
核心思路:论文的核心思路是利用知识蒸馏技术,将丰富的医学知识融入到大型语言模型中。通过指令调优,使模型能够理解药物推荐任务,并生成相应的理由。这种方法结合了LLM的强大语言能力和医学知识的可解释性。
技术框架:KEDRec-LM的技术框架主要包括以下几个部分:1) 构建expRxRec数据集,该数据集包含药物知识图谱、临床试验数据和PubMed出版物;2) 使用指令调优方法训练LLM,使其能够执行药物推荐和理由生成任务;3) 利用知识蒸馏技术,将医学知识从大型知识库转移到LLM中。
关键创新:论文的关键创新在于提出了KEDRec-LM模型,该模型能够进行可解释的药物推荐。与现有方法相比,KEDRec-LM不仅能够提供药物推荐结果,还能够生成相应的理由,从而提高了推荐结果的可信度和可解释性。此外,expRxRec数据集的构建也为该领域的研究提供了宝贵资源。
关键设计:KEDRec-LM的关键设计包括:1) 使用特定的指令格式来指导LLM执行药物推荐和理由生成任务;2) 设计合适的损失函数来优化模型的性能;3) 探索不同的知识蒸馏策略,以有效地将医学知识融入到LLM中。具体的参数设置和网络结构等技术细节在论文中进行了详细描述(未知)。
🖼️ 关键图片
📊 实验亮点
论文构建了包含药物知识图谱、临床试验数据和PubMed出版物的expRxRec数据集,为可解释药物推荐任务提供了benchmark。提出的KEDRec-LM模型通过知识蒸馏和指令调优,实现了药物推荐和理由生成,但具体的性能数据、对比基线、提升幅度等信息未在摘要中体现,需要查阅论文全文(未知)。
🎯 应用场景
该研究成果可应用于辅助医生进行药物选择,提高药物推荐的准确性和效率。通过提供可解释的推荐理由,增强医生和患者对推荐结果的信任度。此外,该模型还可用于药物研发,帮助研究人员发现潜在的药物靶点和新的药物组合。未来,该技术有望在个性化医疗和精准医疗领域发挥重要作用。
📄 摘要(原文)
Drug discovery is a critical task in biomedical natural language processing (NLP), yet explainable drug discovery remains underexplored. Meanwhile, large language models (LLMs) have shown remarkable abilities in natural language understanding and generation. Leveraging LLMs for explainable drug discovery has the potential to improve downstream tasks and real-world applications. In this study, we utilize open-source drug knowledge graphs, clinical trial data, and PubMed publications to construct a comprehensive dataset for the explainable drug discovery task, named \textbf{expRxRec}. Furthermore, we introduce \textbf{KEDRec-LM}, an instruction-tuned LLM which distills knowledge from rich medical knowledge corpus for drug recommendation and rationale generation. To encourage further research in this area, we will publicly release\footnote{A copy is attached with this submission} both the dataset and KEDRec-LM.