Representation learning to advance multi-institutional studies with electronic health record data from US and France

📄 arXiv: 2502.08547 📥 PDF

作者: Doudou Zhou, Han Tong, Linshanshan Wang, Suqi Liu, Xin Xiong, Ziming Gan, Romain Griffier, Boris Hejblum, Yun-Chung Liu, Chuan Hong, Clara-Lea Bonzel, Tianrun Cai, Kevin Pan, Yuk-Lam Ho, Lauren Costa, Vidul A. Panickan, J. Michael Gaziano, Kenneth Mandl, Vianney Jouhet, Rodolphe Thiebaut, Zongqi Xia, Kelly Cho, Katherine Liao, Tianxi Cai

分类: cs.AI

发布日期: 2026-04-07


💡 一句话要点

提出基于图的表征学习框架,解决多机构电子病历数据异构性问题。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 表征学习 电子病历 数据协调 知识图谱 图神经网络 多机构研究 语义空间

📋 核心要点

  1. 现有方法难以解决多机构电子病历数据因编码习惯差异导致的异构性问题。
  2. 提出基于图的表征学习框架,融合机构数据、知识图谱和语义信息,学习共享语义空间。
  3. 实验表明,该框架能有效对齐不同机构的词汇表,为跨机构临床模型训练提供基础。

📝 摘要(中文)

电子病历的广泛应用为转化临床研究创造了新机遇,但跨机构数据分散和本地编码实践的异质性限制了这一潜力。虽然隐私保护的协同学习允许机构在不共享患者级别数据的情况下合作,但它无法解决临床概念在不同站点表示不一致的问题。我们引入了一个基于图的框架,通过将数据协调视为可扩展的表征学习问题来解决这一差距。该框架整合了来自健康记录的机构特定汇总统计数据、精心策划的生物医学知识图谱以及来自大型语言模型的语义信息,以学习共享的语义空间,而不是依赖于固定的标准或手动映射。这种联合学习方法在保护患者隐私的同时,对齐了不同的、站点特定的词汇表。在七个机构和两种语言中进行评估,该框架为跨异构医疗系统训练和部署临床模型提供了稳健的、以数据为中心的基础。

🔬 方法详解

问题定义:论文旨在解决多机构电子病历数据中,由于不同机构采用不同的编码标准和临床实践,导致数据异构性问题。现有方法,如手动映射或依赖固定标准,难以有效且可扩展地协调这些异构数据,阻碍了跨机构的临床研究和模型部署。现有方法无法在保护患者隐私的同时,有效对齐不同机构的词汇表。

核心思路:论文的核心思路是将数据协调问题转化为一个可扩展的表征学习问题。通过学习一个共享的语义空间,将不同机构的异构数据映射到该空间中,从而实现数据的对齐和融合。这种方法避免了手动映射的繁琐和固定标准的局限性,能够更好地适应不同机构的编码习惯和临床实践。

技术框架:该框架包含以下主要模块:1) 数据预处理:从各个机构的电子病历中提取汇总统计数据。2) 知识图谱构建:利用现有的生物医学知识图谱,如 UMLS,构建临床概念之间的关系。3) 语义信息提取:利用大型语言模型,如 BERT,从临床文本中提取语义信息。4) 图神经网络学习:构建一个图神经网络,将机构数据、知识图谱和语义信息作为输入,学习一个共享的语义空间。5) 模型评估:利用学习到的语义空间,训练和评估跨机构的临床模型。

关键创新:该论文的关键创新在于将数据协调问题转化为一个表征学习问题,并提出了一种基于图的联合学习框架。该框架能够同时利用机构数据、知识图谱和语义信息,学习一个共享的语义空间,从而实现数据的对齐和融合。与现有方法相比,该框架具有更好的可扩展性和适应性,能够更好地处理多机构电子病历数据的异构性问题。

关键设计:框架使用了图神经网络(GNN)来学习共享语义空间。GNN的节点代表临床概念,边代表概念之间的关系(来自知识图谱或语义相似性)。损失函数的设计目标是使相似的概念在语义空间中距离更近,不相似的概念距离更远。具体而言,可能使用了对比损失或三元组损失。论文可能还使用了注意力机制来区分不同信息源的重要性,例如,知识图谱中的关系可能比语义信息更可靠。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该框架在七个机构和两种语言(美国和法国)的数据集上进行了评估,结果表明该方法能够有效地对齐不同机构的词汇表,并为跨机构临床模型的训练和部署提供了稳健的基础。具体的性能指标(如对齐准确率、模型预测性能)未知,但摘要强调了其在异构环境下的适用性。

🎯 应用场景

该研究成果可应用于多中心临床试验、药物研发、疾病预测和个性化医疗等领域。通过整合不同医疗机构的电子病历数据,可以更全面地了解疾病的发生发展规律,提高临床研究的效率和准确性,最终改善患者的治疗效果。该方法在未来有望促进更广泛的医疗数据共享和协同研究。

📄 摘要(原文)

The widespread adoption of electronic health records has created new opportunities for translational clinical research, yet this promise remains constrained by fragmented data across privacy-siloed institutions and substantial heterogeneity in local coding practices. While privacy-preserving collaborative learning allows institutions to work together without sharing patient-level data, it does not address inconsistencies in how clinical concepts are represented across sites. We introduce a graph-based framework that addresses this gap by treating data harmonization as a scalable representation learning problem. Rather than relying on fixed standards or manual mappings, the framework integrates institution-specific summary statistics from health records, curated biomedical knowledge graphs, and semantic information derived from large language models to learn a shared semantic space. This joint learning approach aligns diverse, site-specific vocabularies while preserving patient privacy. Evaluated across seven institutions and two languages, the framework provides a robust, data-centric foundation for training and deploying clinical models across heterogeneous healthcare systems.