A survey of using EHR as real-world evidence for discovering and validating new drug indications

📄 arXiv: 2505.24767v2 📥 PDF

作者: Nabasmita Talukdar, Xiaodan Zhang, Shreya Paithankar, Hui Wang, Bin Chen

分类: stat.AP, cs.AI

发布日期: 2025-05-30 (更新: 2025-11-20)


💡 一句话要点

综述电子病历作为真实世界证据用于新药适应症发现与验证的研究

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 电子病历 药物重定向 真实世界证据 大型语言模型 目标试验模拟 数据挖掘 药物研发

📋 核心要点

  1. 现有药物重定向方法缺乏对电子病历数据全面有效的利用,面临数据质量、异构性和复杂性的挑战。
  2. 本文通过综述现有方法,整合数据来源、处理技术和评估框架,为研究人员提供药物重定向的参考。
  3. 该综述强调了大型语言模型和目标试验模拟在药物疗效验证中的作用,并讨论了未来研究方向。

📝 摘要(中文)

本文综述了当前基于电子病历(EHR)的药物重定向方法,电子病历正日益被用作真实世界证据(RWE),以支持新药适应症的发现和验证。内容涵盖数据来源、处理方法和表征技术。讨论了评估药物疗效的研究设计和统计框架。重点讨论了验证中的关键挑战,强调了大型语言模型(LLM)和目标试验模拟的作用。通过综合最近的发展和方法学进展,这项工作为旨在将真实世界数据转化为可操作的药物重定向证据的研究人员提供了一个基础资源。

🔬 方法详解

问题定义:药物重定向旨在发现现有药物的新适应症,但传统方法耗时且成本高昂。电子病历(EHR)作为真实世界数据(RWD)的重要来源,蕴含着丰富的药物-疾病关联信息。然而,EHR数据具有异构性、不完整性和噪声等特点,如何有效利用EHR数据进行药物重定向是一个关键问题。现有方法在数据处理、特征提取和因果推断等方面存在不足,难以准确评估药物疗效。

核心思路:本文的核心思路是对现有基于EHR的药物重定向方法进行系统性综述,从数据来源、处理方法、研究设计和验证策略等方面进行梳理和总结。通过分析不同方法的优缺点,为研究人员提供一个全面的参考框架,帮助他们更好地利用EHR数据进行药物重定向研究。

技术框架:该综述的技术框架主要包括以下几个方面:1) 数据来源:介绍常用的EHR数据库,如MIMIC-III、Optum等;2) 数据处理:讨论数据清洗、标准化、表征学习等技术;3) 研究设计:分析常用的观察性研究设计,如病例对照研究、队列研究等;4) 统计框架:介绍常用的统计分析方法,如倾向评分匹配、工具变量法等;5) 验证策略:讨论如何利用大型语言模型和目标试验模拟来验证药物疗效。

关键创新:本文的创新之处在于对基于EHR的药物重定向方法进行了全面的综述,并重点讨论了大型语言模型和目标试验模拟在药物疗效验证中的作用。与以往的综述相比,本文更加关注新兴技术和方法,并对未来的研究方向进行了展望。

关键设计:本文的关键设计在于对不同方法的分类和比较,以及对关键技术的深入分析。例如,在数据处理方面,本文比较了不同的表征学习方法,如Word2Vec、BERT等,并分析了它们的优缺点。在研究设计方面,本文讨论了不同观察性研究设计的适用场景和局限性。在验证策略方面,本文重点介绍了大型语言模型和目标试验模拟的原理和应用。

📊 实验亮点

该综述总结了当前电子病历在药物重定向中的应用,强调了数据处理和研究设计的重要性。特别指出大型语言模型和目标试验模拟在验证药物疗效方面的潜力。为研究人员提供了一个全面的参考,有助于推动该领域的发展。

🎯 应用场景

该研究成果可应用于药物研发领域,加速新药适应症的发现和验证过程,降低研发成本。通过有效利用电子病历数据,可以为临床医生提供更精准的用药指导,改善患者的治疗效果。此外,该研究还有助于推动真实世界研究的发展,为医疗决策提供更可靠的依据。

📄 摘要(原文)

Electronic Health Records (EHRs) have been increasingly used as real-world evidence (RWE) to support the discovery and validation of new drug indications. This paper surveys current approaches to EHR-based drug repurposing, covering data sources, processing methodologies, and representation techniques. It discusses study designs and statistical frameworks for evaluating drug efficacy. Key challenges in validation are discussed, with emphasis on the role of large language models (LLMs) and target trial emulation. By synthesizing recent developments and methodological advances, this work provides a foundational resource for researchers aiming to translate real-world data into actionable drug-repurposing evidence.