A Comprehensive Survey of Electronic Health Record Modeling: From Deep Learning Approaches to Large Language Models

📄 arXiv: 2507.12774v1 📥 PDF

作者: Weijieying Ren, Jingxi Zhu, Zehao Liu, Tianxiang Zhao, Vasant Honavar

分类: cs.LG, cs.AI, cs.CL

发布日期: 2025-07-17

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

综述电子病历建模:从深度学习到大语言模型,探索AI在医疗领域的应用。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 电子病历建模 深度学习 大型语言模型 医疗人工智能 临床决策支持

📋 核心要点

  1. 电子病历数据异构、时序不规则,领域性强,传统AI方法难以有效建模。
  2. 提出统一分类法,涵盖数据、架构、学习策略、多模态和LLM等五个关键维度。
  3. 强调基础模型、LLM临床代理、EHR文本翻译等新兴趋势,并讨论了现有挑战。

📝 摘要(中文)

人工智能(AI)在通过分析和建模电子病历(EHRs)来变革医疗保健方面展现出巨大的潜力。然而,EHR数据固有的异构性、时间不规则性和领域特定性带来了独特的挑战,这与视觉和自然语言任务中的挑战有着根本的不同。本综述全面概述了深度学习、大型语言模型(LLMs)和EHR建模交叉领域的最新进展。我们提出了一个统一的分类法,涵盖五个关键设计维度:以数据为中心的方法、神经架构设计、以学习为中心的策略、多模态学习和基于LLM的建模系统。在每个维度中,我们回顾了解决数据质量增强、结构和时间表示、自监督学习以及与临床知识集成等问题的代表性方法。我们进一步强调了诸如基础模型、LLM驱动的临床代理以及用于下游推理的EHR到文本翻译等新兴趋势。最后,我们讨论了在基准测试、可解释性、临床一致性以及跨不同临床环境的泛化等方面的公开挑战。本综述旨在为推进AI驱动的EHR建模和临床决策支持提供结构化的路线图。

🔬 方法详解

问题定义:电子病历(EHR)数据具有高度的异构性、时间不规则性和领域特殊性,这使得传统的机器学习和深度学习方法难以有效地进行建模和分析。现有的方法在处理数据质量、捕捉时间依赖关系、整合临床知识等方面存在不足,限制了AI在医疗领域的应用。

核心思路:本综述的核心思路是对现有的EHR建模方法进行系统性的梳理和分类,并从数据、模型、学习策略等多个维度进行深入分析。通过总结不同方法的优缺点,为研究人员提供一个全面的视角,从而更好地理解和解决EHR建模中的挑战。

技术框架:该综述构建了一个统一的分类框架,包含五个关键设计维度:1) 以数据为中心的方法,关注数据质量和预处理;2) 神经架构设计,探索不同的神经网络结构;3) 以学习为中心的策略,研究自监督学习等方法;4) 多模态学习,整合多种数据源;5) 基于LLM的建模系统,利用大型语言模型进行EHR建模。

关键创新:该综述的创新之处在于其全面的视角和系统性的分类框架。它不仅涵盖了传统的深度学习方法,还关注了新兴的大型语言模型在EHR建模中的应用。此外,该综述还强调了临床知识整合、可解释性等重要问题,为未来的研究方向提供了指导。

关键设计:在数据维度,关注数据清洗、缺失值处理和数据增强等技术。在模型维度,研究了循环神经网络(RNN)、Transformer等适用于时序数据建模的结构。在学习策略维度,探讨了自监督学习、迁移学习等方法,以提高模型的泛化能力。在多模态学习维度,研究了如何整合文本、图像等多种数据源。在LLM维度,探索了如何利用预训练语言模型进行EHR建模和临床决策支持。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该综述总结了近年来在EHR建模领域取得的重要进展,并指出了未来的研究方向。特别强调了大型语言模型在EHR建模中的潜力,并讨论了可解释性、临床一致性等关键问题。该综述为研究人员提供了一个全面的视角,有助于推动AI在医疗领域的应用。

🎯 应用场景

该研究成果可应用于多种医疗场景,包括疾病预测、诊断辅助、个性化治疗方案推荐、药物研发等。通过更有效地利用电子病历数据,可以提高医疗质量、降低医疗成本,并改善患者的健康状况。未来,随着AI技术的不断发展,EHR建模将在医疗领域发挥越来越重要的作用。

📄 摘要(原文)

Artificial intelligence (AI) has demonstrated significant potential in transforming healthcare through the analysis and modeling of electronic health records (EHRs). However, the inherent heterogeneity, temporal irregularity, and domain-specific nature of EHR data present unique challenges that differ fundamentally from those in vision and natural language tasks. This survey offers a comprehensive overview of recent advancements at the intersection of deep learning, large language models (LLMs), and EHR modeling. We introduce a unified taxonomy that spans five key design dimensions: data-centric approaches, neural architecture design, learning-focused strategies, multimodal learning, and LLM-based modeling systems. Within each dimension, we review representative methods addressing data quality enhancement, structural and temporal representation, self-supervised learning, and integration with clinical knowledge. We further highlight emerging trends such as foundation models, LLM-driven clinical agents, and EHR-to-text translation for downstream reasoning. Finally, we discuss open challenges in benchmarking, explainability, clinical alignment, and generalization across diverse clinical settings. This survey aims to provide a structured roadmap for advancing AI-driven EHR modeling and clinical decision support. For a comprehensive list of EHR-related methods, kindly refer to https://survey-on-tabular-data.github.io/.