Improving Social Determinants of Health Documentation in French EHRs Using Large Language Models

📄 arXiv: 2507.03433v1 📥 PDF

作者: Adrien Bazoge, Pacôme Constant dit Beaufils, Mohammed Hmitouch, Romain Bourcier, Emmanuel Morin, Richard Dufour, Béatrice Daille, Pierre-Antoine Gourraud, Matilde Karakachoff

分类: cs.CL, cs.AI

发布日期: 2025-07-04


💡 一句话要点

利用大型语言模型提升法语电子病历中社会决定因素的文档记录完整性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 社会决定因素 大型语言模型 电子病历 自然语言处理 法语 临床文本挖掘 Flan-T5 健康信息学

📋 核心要点

  1. 电子病历中社会决定因素(SDoH)的记录不完整,影响健康结果分析和干预。
  2. 利用大型语言模型从法语临床笔记中自动提取13个SDoH类别,提升数据完整性。
  3. 实验表明,该模型能有效识别SDoH,显著提高SDoH数据的覆盖率,但部分类别仍有提升空间。

📝 摘要(中文)

社会决定因素(SDoH)对健康结果有显著影响,塑造着疾病进展、治疗依从性和健康差异。然而,在结构化电子病历(EHRs)中,它们的记录往往不完整或缺失。本研究提出了一种基于大型语言模型(LLMs)的方法,用于从法语临床笔记中提取13个SDoH类别。我们使用法国南特大学医院的临床笔记中带注释的社会病史部分,对Flan-T5-Large模型进行了训练。我们在两个层面上评估了该模型:(i)识别SDoH类别和相关值,以及(ii)提取具有相关时间和定量信息的详细SDoH。该模型在四个数据集上进行了评估,其中包括我们公开发布的两个开放资源。对于记录良好的类别,如生活条件、婚姻状况、后代、工作、烟草和酒精使用,该模型取得了良好的性能(F1 score > 0.80)。对于训练数据有限或表达方式高度可变的类别,如就业状况、住房、体育活动、收入和教育,性能较低。与结构化EHR数据中的ICD-10代码的2.8%相比,我们的模型识别出95.8%的至少具有一个SDoH的患者。我们的错误分析表明,性能限制与注释不一致、依赖于以英语为中心的tokenizer以及由于模型仅在社会病史部分进行训练而导致的泛化能力降低有关。这些结果证明了NLP在提高非英语EHR系统中真实世界SDoH数据的完整性方面的有效性。

🔬 方法详解

问题定义:该论文旨在解决法语电子病历(EHRs)中社会决定因素(SDoH)记录不完整的问题。现有方法依赖于结构化数据录入和ICD-10编码,但这些方法往往无法捕捉到临床笔记中丰富的SDoH信息,导致数据缺失和分析偏差。

核心思路:论文的核心思路是利用大型语言模型(LLMs)的自然语言处理能力,自动从非结构化的法语临床笔记中提取SDoH信息。通过训练LLM识别和分类临床文本中的SDoH相关内容,从而提高EHR中SDoH数据的完整性和覆盖率。

技术框架:该研究的技术框架主要包括以下几个步骤:1) 数据收集和标注:收集法国南特大学医院的法语临床笔记,并人工标注其中的SDoH信息。2) 模型选择和训练:选择Flan-T5-Large作为基础模型,并使用标注好的数据进行微调训练。3) 模型评估:在多个数据集上评估模型的性能,包括SDoH类别识别和详细SDoH信息提取。4) 错误分析:分析模型的错误类型,并探讨改进方向。

关键创新:该研究的关键创新在于将LLM应用于非英语的法语临床文本,以提取SDoH信息。与传统的基于规则或特征工程的方法相比,LLM能够更好地理解和处理自然语言,从而更准确地识别SDoH。此外,该研究还公开发布了两个标注好的法语SDoH数据集,为后续研究提供了资源。

关键设计:该研究的关键设计包括:1) 使用Flan-T5-Large模型,该模型在文本生成和理解方面表现出色。2) 使用人工标注的社会病史部分数据进行训练,以提高模型在SDoH识别方面的准确性。3) 在两个层面上评估模型性能:SDoH类别识别和详细SDoH信息提取。4) 针对模型错误进行详细分析,包括注释不一致、tokenizer问题和泛化能力不足等。

🖼️ 关键图片

img_0

📊 实验亮点

该研究表明,使用Flan-T5-Large模型可以有效识别法语临床笔记中的SDoH信息。模型在识别生活条件、婚姻状况、烟草和酒精使用等类别上取得了超过0.80的F1 score。与传统的ICD-10编码相比,该模型识别出95.8%的至少具有一个SDoH的患者,而ICD-10编码仅识别出2.8%。

🎯 应用场景

该研究成果可应用于医疗健康领域,通过自动提取电子病历中的社会决定因素,提升数据的完整性和可用性。这有助于更全面地了解患者的健康状况,从而支持个性化治疗方案的制定、健康风险评估和公共卫生政策的制定。未来,该技术可推广到其他语言和医疗机构,促进全球健康公平。

📄 摘要(原文)

Social determinants of health (SDoH) significantly influence health outcomes, shaping disease progression, treatment adherence, and health disparities. However, their documentation in structured electronic health records (EHRs) is often incomplete or missing. This study presents an approach based on large language models (LLMs) for extracting 13 SDoH categories from French clinical notes. We trained Flan-T5-Large on annotated social history sections from clinical notes at Nantes University Hospital, France. We evaluated the model at two levels: (i) identification of SDoH categories and associated values, and (ii) extraction of detailed SDoH with associated temporal and quantitative information. The model performance was assessed across four datasets, including two that we publicly release as open resources. The model achieved strong performance for identifying well-documented categories such as living condition, marital status, descendants, job, tobacco, and alcohol use (F1 score > 0.80). Performance was lower for categories with limited training data or highly variable expressions, such as employment status, housing, physical activity, income, and education. Our model identified 95.8% of patients with at least one SDoH, compared to 2.8% for ICD-10 codes from structured EHR data. Our error analysis showed that performance limitations were linked to annotation inconsistencies, reliance on English-centric tokenizer, and reduced generalizability due to the model being trained on social history sections only. These results demonstrate the effectiveness of NLP in improving the completeness of real-world SDoH data in a non-English EHR system.