Synthesizing Multimodal Electronic Health Records via Predictive Diffusion Models

📄 arXiv: 2406.13942v1 📥 PDF

作者: Yuan Zhong, Xiaochen Wang, Jiaqi Wang, Xiaokun Zhang, Yaqing Wang, Mengdi Huai, Cao Xiao, Fenglong Ma

分类: cs.LG

发布日期: 2024-06-20


💡 一句话要点

提出EHRPD,一种基于预测扩散模型的电子病历数据生成方法,解决现有方法在时间建模和表征学习上的不足。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 电子病历 数据生成 扩散模型 时间序列建模 隐私保护

📋 核心要点

  1. 现有EHR数据生成方法在建模访问之间的时间依赖性方面存在不足,并且对时间信息的生成考虑不足。
  2. EHRPD模型通过预测下一次访问并结合时间间隔估计,从而更好地建模EHR数据中的时间信息。
  3. 实验结果表明,EHRPD在保真度、隐私和效用方面均表现出良好的性能,有效提升了EHR数据生成的质量。

📝 摘要(中文)

电子病历(EHR)数据合成已成为解决医疗保健领域数据稀缺、提高数据质量和建模公平性的首选策略。然而,现有的EHR数据生成方法主要依赖于生成对抗网络、变分自编码器和语言模型等先进的生成技术。这些方法通常复制输入访问,导致对访问之间的时间依赖性建模不足,并忽略了时间信息的生成,而时间信息是EHR数据中的关键要素。此外,由于简单的线性映射函数,它们学习访问表示的能力有限,从而影响了生成质量。为了解决这些局限性,我们提出了一种名为EHRPD的新型EHR数据生成模型。它是一种基于扩散的模型,旨在基于当前访问预测下一次访问,同时结合时间间隔估计。为了提高生成质量和多样性,我们引入了一种新的时间感知访问嵌入模块和一种开创性的预测去噪扩散概率模型(PDDPM)。此外,我们设计了一个预测U-Net (PU-Net)来优化P-DDPM。我们在两个公共数据集上进行了实验,并从保真度、隐私和效用角度评估了EHRPD。实验结果表明,所提出的EHRPD在解决上述局限性和推进EHR数据生成方面的有效性和实用性。

🔬 方法详解

问题定义:现有EHR数据生成方法,如GAN、VAE和语言模型,主要通过复制现有访问记录来生成数据,忽略了EHR数据中重要的时间依赖关系,并且对时间信息的建模能力不足。此外,简单的线性映射函数限制了模型学习高质量访问表示的能力,影响了生成数据的质量和多样性。

核心思路:EHRPD的核心思路是利用扩散模型预测下一次访问记录,并同时估计时间间隔。通过这种方式,模型能够更好地捕捉EHR数据中的时间动态,并生成更真实、更多样化的数据。模型引入了时间感知的访问嵌入模块,以提升访问表示的质量。

技术框架:EHRPD模型主要包含以下几个模块:1) 时间感知访问嵌入模块:用于学习高质量的访问表示,并融入时间信息。2) 预测去噪扩散概率模型(PDDPM):基于当前访问记录预测下一次访问记录,并估计时间间隔。3) 预测U-Net (PU-Net):用于优化PDDPM,提升生成质量。整体流程是,首先通过时间感知访问嵌入模块将访问记录转换为嵌入向量,然后使用PDDPM基于当前嵌入向量预测下一个嵌入向量和时间间隔,最后将预测的嵌入向量解码为访问记录。

关键创新:EHRPD的关键创新在于:1) 提出了基于预测的扩散模型(PDDPM)用于EHR数据生成,能够更好地建模时间依赖关系。2) 引入了时间感知访问嵌入模块,提升了访问表示的质量。3) 设计了预测U-Net (PU-Net)来优化PDDPM,进一步提升了生成质量。与现有方法相比,EHRPD能够生成更真实、更多样化、且具有时间一致性的EHR数据。

关键设计:时间感知访问嵌入模块的具体实现方式未知,但推测可能使用了循环神经网络或Transformer等模型来捕捉时间序列信息。PDDPM的具体参数设置和损失函数未知,但推测可能使用了标准的扩散模型训练方法,并针对EHR数据的特点进行了调整。PU-Net的网络结构未知,但推测可能采用了U-Net的变体,并针对预测任务进行了优化。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,EHRPD在两个公共数据集上均取得了良好的性能。具体性能数据未知,但论文强调EHRPD在保真度、隐私和效用三个方面均优于现有方法。这表明EHRPD能够生成高质量的合成EHR数据,同时保护患者隐私,并为下游任务提供有用的信息。

🎯 应用场景

EHRPD模型生成的合成EHR数据可以用于解决医疗保健领域的数据稀缺问题,例如在罕见疾病研究中,可以利用合成数据来扩充数据集,从而提高研究的统计效力。此外,合成数据还可以用于模型训练和评估,而无需暴露患者的真实数据,从而保护患者隐私。该研究的未来影响在于,可以促进医疗人工智能的发展,并为个性化医疗提供更可靠的数据基础。

📄 摘要(原文)

Synthesizing electronic health records (EHR) data has become a preferred strategy to address data scarcity, improve data quality, and model fairness in healthcare. However, existing approaches for EHR data generation predominantly rely on state-of-the-art generative techniques like generative adversarial networks, variational autoencoders, and language models. These methods typically replicate input visits, resulting in inadequate modeling of temporal dependencies between visits and overlooking the generation of time information, a crucial element in EHR data. Moreover, their ability to learn visit representations is limited due to simple linear mapping functions, thus compromising generation quality. To address these limitations, we propose a novel EHR data generation model called EHRPD. It is a diffusion-based model designed to predict the next visit based on the current one while also incorporating time interval estimation. To enhance generation quality and diversity, we introduce a novel time-aware visit embedding module and a pioneering predictive denoising diffusion probabilistic model (PDDPM). Additionally, we devise a predictive U-Net (PU-Net) to optimize P-DDPM.We conduct experiments on two public datasets and evaluate EHRPD from fidelity, privacy, and utility perspectives. The experimental results demonstrate the efficacy and utility of the proposed EHRPD in addressing the aforementioned limitations and advancing EHR data generation.