A Comprehensive Survey of Electronic Health Record Modeling: From Deep Learning Approaches to Large Language Models

作者: Weijieying Ren, Jingxi Zhu, Zehao Liu, Tianxiang Zhao, Vasant Honavar

分类: cs.LG, cs.AI, cs.CL

发布日期: 2025-07-17

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

综述电子病历建模：从深度学习到大语言模型，探索AI在医疗领域的应用。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 电子病历建模 深度学习 大型语言模型 医疗人工智能 临床决策支持

📋 核心要点

电子病历数据异构、时序不规则，领域性强，传统AI方法难以有效建模。
提出统一分类法，涵盖数据、架构、学习策略、多模态和LLM等五个关键维度。
强调基础模型、LLM临床代理、EHR文本翻译等新兴趋势，并讨论了现有挑战。

📝 摘要（中文）

人工智能（AI）在通过分析和建模电子病历（EHRs）来变革医疗保健方面展现出巨大的潜力。然而，EHR数据固有的异构性、时间不规则性和领域特定性带来了独特的挑战，这与视觉和自然语言任务中的挑战有着根本的不同。本综述全面概述了深度学习、大型语言模型（LLMs）和EHR建模交叉领域的最新进展。我们提出了一个统一的分类法，涵盖五个关键设计维度：以数据为中心的方法、神经架构设计、以学习为中心的策略、多模态学习和基于LLM的建模系统。在每个维度中，我们回顾了解决数据质量增强、结构和时间表示、自监督学习以及与临床知识集成等问题的代表性方法。我们进一步强调了诸如基础模型、LLM驱动的临床代理以及用于下游推理的EHR到文本翻译等新兴趋势。最后，我们讨论了在基准测试、可解释性、临床一致性以及跨不同临床环境的泛化等方面的公开挑战。本综述旨在为推进AI驱动的EHR建模和临床决策支持提供结构化的路线图。

🔬 方法详解

问题定义：电子病历（EHR）数据具有高度的异构性、时间不规则性和领域特殊性，这使得传统的机器学习和深度学习方法难以有效地进行建模和分析。现有的方法在处理数据质量、捕捉时间依赖关系、整合临床知识等方面存在不足，限制了AI在医疗领域的应用。

核心思路：本综述的核心思路是对现有的EHR建模方法进行系统性的梳理和分类，并从数据、模型、学习策略等多个维度进行深入分析。通过总结不同方法的优缺点，为研究人员提供一个全面的视角，从而更好地理解和解决EHR建模中的挑战。

技术框架：该综述构建了一个统一的分类框架，包含五个关键设计维度：1) 以数据为中心的方法，关注数据质量和预处理；2) 神经架构设计，探索不同的神经网络结构；3) 以学习为中心的策略，研究自监督学习等方法；4) 多模态学习，整合多种数据源；5) 基于LLM的建模系统，利用大型语言模型进行EHR建模。

关键创新：该综述的创新之处在于其全面的视角和系统性的分类框架。它不仅涵盖了传统的深度学习方法，还关注了新兴的大型语言模型在EHR建模中的应用。此外，该综述还强调了临床知识整合、可解释性等重要问题，为未来的研究方向提供了指导。

关键设计：在数据维度，关注数据清洗、缺失值处理和数据增强等技术。在模型维度，研究了循环神经网络（RNN）、Transformer等适用于时序数据建模的结构。在学习策略维度，探讨了自监督学习、迁移学习等方法，以提高模型的泛化能力。在多模态学习维度，研究了如何整合文本、图像等多种数据源。在LLM维度，探索了如何利用预训练语言模型进行EHR建模和临床决策支持。

🖼️ 关键图片

📊 实验亮点

该综述总结了近年来在EHR建模领域取得的重要进展，并指出了未来的研究方向。特别强调了大型语言模型在EHR建模中的潜力，并讨论了可解释性、临床一致性等关键问题。该综述为研究人员提供了一个全面的视角，有助于推动AI在医疗领域的应用。

🎯 应用场景

该研究成果可应用于多种医疗场景，包括疾病预测、诊断辅助、个性化治疗方案推荐、药物研发等。通过更有效地利用电子病历数据，可以提高医疗质量、降低医疗成本，并改善患者的健康状况。未来，随着AI技术的不断发展，EHR建模将在医疗领域发挥越来越重要的作用。

📄 摘要（原文）

Artificial intelligence (AI) has demonstrated significant potential in transforming healthcare through the analysis and modeling of electronic health records (EHRs). However, the inherent heterogeneity, temporal irregularity, and domain-specific nature of EHR data present unique challenges that differ fundamentally from those in vision and natural language tasks. This survey offers a comprehensive overview of recent advancements at the intersection of deep learning, large language models (LLMs), and EHR modeling. We introduce a unified taxonomy that spans five key design dimensions: data-centric approaches, neural architecture design, learning-focused strategies, multimodal learning, and LLM-based modeling systems. Within each dimension, we review representative methods addressing data quality enhancement, structural and temporal representation, self-supervised learning, and integration with clinical knowledge. We further highlight emerging trends such as foundation models, LLM-driven clinical agents, and EHR-to-text translation for downstream reasoning. Finally, we discuss open challenges in benchmarking, explainability, clinical alignment, and generalization across diverse clinical settings. This survey aims to provide a structured roadmap for advancing AI-driven EHR modeling and clinical decision support. For a comprehensive list of EHR-related methods, kindly refer to https://survey-on-tabular-data.github.io/.

A Comprehensive Survey of Electronic Health Record Modeling: From Deep Learning Approaches to Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理