Mining Social Determinants of Health for Heart Failure Patient 30-Day Readmission via Large Language Model

📄 arXiv: 2502.12158v1 📥 PDF

作者: Mingchen Shao, Youjeong Kang, Xiao Hu, Hyunjung Gloria Kwak, Carl Yang, Jiaying Lu

分类: cs.LG, cs.AI, cs.CL, cs.CY

发布日期: 2025-01-23

期刊: in Proceedings of The 20th World Congress on Medical and Health Informatics (MEDINFO 2025)

DOI: 10.3233/SHTI251272


💡 一句话要点

利用大型语言模型挖掘社会决定因素以预测心力衰竭患者30天再入院率

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 社会决定因素 心力衰竭 再入院预测 大型语言模型 临床文本挖掘

📋 核心要点

  1. 心力衰竭患者再入院率高,但电子病历中社会决定因素(SDOH)信息不足,且大量信息隐藏在非结构化文本中。
  2. 利用大型语言模型从临床文本中提取SDOH,并分析其与心力衰竭再入院的相关性,从而识别关键风险因素。
  3. 通过识别如烟草使用、交通不便等关键SDOH,为降低再入院率和改善患者护理提供可操作的见解。

📝 摘要(中文)

本研究旨在解决心力衰竭(HF)患者再入院率高的问题,该问题影响了数百万美国人,对医疗保健提出了重大挑战。社会决定因素(SDOH),如社会经济地位和住房稳定性,在健康结果中起着关键作用,但它们在结构化EHR中往往代表性不足,并且隐藏在非结构化临床笔记中。本研究利用先进的大型语言模型(LLM)从临床文本中提取SDOH,并使用逻辑回归分析它们与HF再入院的相关性。通过识别与再入院风险相关的关键SDOH(如烟草使用、交通不便),这项工作还为降低再入院率和改善患者护理提供了可操作的见解。

🔬 方法详解

问题定义:该论文旨在解决心力衰竭患者30天再入院率高的问题。现有方法主要依赖于结构化的电子病历数据,而忽略了大量存在于非结构化临床文本中的社会决定因素(SDOH)。这些SDOH对患者的健康状况和再入院风险有重要影响,但由于难以提取和利用,导致现有模型预测精度不足。

核心思路:该论文的核心思路是利用大型语言模型(LLM)强大的自然语言处理能力,从非结构化的临床文本中自动提取SDOH信息。然后,将提取的SDOH信息与患者的再入院情况进行关联分析,从而识别出影响再入院风险的关键SDOH因素。这样可以更全面地了解患者的社会背景,并为制定个性化的干预措施提供依据。

技术框架:该研究的技术框架主要包括以下几个阶段:1) 数据收集:收集包含临床文本的电子病历数据。2) SDOH提取:使用预训练的LLM(具体模型未知)对临床文本进行分析,提取相关的SDOH信息。3) 特征工程:将提取的SDOH信息转化为可用于机器学习模型的特征。4) 模型训练:使用逻辑回归模型,以提取的SDOH特征为输入,患者的再入院情况为输出,进行模型训练。5) 模型评估:评估模型的预测性能,并分析不同SDOH因素对再入院风险的影响。

关键创新:该论文的关键创新在于将大型语言模型应用于SDOH的提取,从而能够有效地利用非结构化的临床文本数据。与传统的手工标注或基于规则的方法相比,LLM具有更高的自动化程度和更强的泛化能力。此外,该研究还通过关联分析,识别出了影响心力衰竭患者再入院风险的关键SDOH因素,为临床干预提供了新的视角。

关键设计:论文中关于LLM的具体选择、训练方式,以及特征工程的细节(例如,如何将文本信息转化为数值特征)未知。逻辑回归模型的参数设置也未知。损失函数的选择取决于逻辑回归模型的标准形式,通常是交叉熵损失函数。

🖼️ 关键图片

img_0

📊 实验亮点

该研究成功地利用大型语言模型从临床文本中提取了SDOH信息,并识别出与心力衰竭患者再入院风险相关的关键因素,如烟草使用和交通不便。虽然具体的性能数据和对比基线未知,但该研究为利用自然语言处理技术改善医疗保健服务提供了有价值的思路。

🎯 应用场景

该研究成果可应用于医疗保健领域,帮助医疗机构更全面地了解心力衰竭患者的社会背景,识别高风险人群,并制定个性化的干预措施,从而降低再入院率,改善患者的健康状况。此外,该方法还可以推广到其他疾病的风险预测和管理中,具有广泛的应用前景。

📄 摘要(原文)

Heart Failure (HF) affects millions of Americans and leads to high readmission rates, posing significant healthcare challenges. While Social Determinants of Health (SDOH) such as socioeconomic status and housing stability play critical roles in health outcomes, they are often underrepresented in structured EHRs and hidden in unstructured clinical notes. This study leverages advanced large language models (LLMs) to extract SDOHs from clinical text and uses logistic regression to analyze their association with HF readmissions. By identifying key SDOHs (e.g. tobacco usage, limited transportation) linked to readmission risk, this work also offers actionable insights for reducing readmissions and improving patient care.