Integration of Large Language Models and Traditional Deep Learning for Social Determinants of Health Prediction

📄 arXiv: 2505.04655v1 📥 PDF

作者: Paul Landes, Jimeng Sun, Adam Cross

分类: cs.CL

发布日期: 2025-05-06


💡 一句话要点

结合大语言模型与传统深度学习,用于预测健康的社会决定因素

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 社会决定因素 大语言模型 深度学习 临床文本挖掘 多标签分类

📋 核心要点

  1. 现有方法在从临床文本中提取SDoH方面效率较低,且难以兼顾精度与速度。
  2. 结合LLM的精度和传统深度学习的效率,提出一种更灵活高效的SDoH自动提取解决方案。
  3. 实验结果表明,该模型在多标签SDoH分类任务上优于现有基线,并显著提升了分类速度。

📝 摘要(中文)

健康的社会决定因素(SDoH)是影响个人健康状况的经济、社会和个人环境。SDoH与健康结果相关,因此对医生诊断疾病和进行决策很有用。本文利用传统深度学习和大语言模型(LLM)从临床文本中自动提取SDoH,以发现它们在现有公开数据集上的优缺点。我们的模型在多标签SDoH分类任务上优于先前的基线10个百分点,并提出了一种通过消除昂贵的LLM处理来显著加速分类(12倍执行时间)的方法和模型。我们提出的方法结合了一个更灵活高效的解决方案,该方案利用LLM的精度和传统深度学习方法的效率。我们还在补充了合成数据的数据集上展示了高性能的结果,并且一些传统深度学习模型优于LLM。我们的模型和方法为自动预测影响高危患者的SDoH提供了下一次迭代。

🔬 方法详解

问题定义:论文旨在解决从临床文本中自动提取健康的社会决定因素(SDoH)的问题。现有方法要么依赖于计算成本高昂的大语言模型(LLM),要么使用精度较低的传统深度学习方法,难以在精度和效率之间取得平衡。

核心思路:论文的核心思路是结合LLM的强大语义理解能力和传统深度学习模型的计算效率,设计一种混合模型,既能保证提取的准确性,又能显著降低计算成本。通过消除昂贵的LLM处理,实现更快的分类速度。

技术框架:整体框架包含以下几个主要阶段:1) 使用LLM对少量数据进行标注或特征提取;2) 利用这些数据训练传统的深度学习模型;3) 使用训练好的深度学习模型对大量未标注的临床文本进行SDoH提取。这种框架旨在利用LLM的优势来提升传统深度学习模型的性能,同时避免直接在大规模数据上使用LLM。

关键创新:论文的关键创新在于提出了一种将LLM与传统深度学习相结合的策略,通过少量LLM标注数据训练高效的深度学习模型,从而在精度和效率之间取得平衡。此外,还探索了使用合成数据来增强模型的泛化能力。

关键设计:论文中可能涉及的关键设计包括:1) 选择合适的LLM进行特征提取或数据标注;2) 设计合适的传统深度学习模型结构,例如卷积神经网络(CNN)或循环神经网络(RNN),用于SDoH分类;3) 设计合适的损失函数,例如交叉熵损失,用于训练深度学习模型;4) 探索不同的数据增强方法,例如生成对抗网络(GAN),用于生成合成数据。

📊 实验亮点

该模型在多标签SDoH分类任务上优于先前的基线10个百分点,并且通过消除昂贵的LLM处理,实现了12倍的执行速度提升。此外,在补充了合成数据的数据集上,一些传统深度学习模型也表现出优于LLM的性能,表明该方法具有良好的泛化能力和实用价值。

🎯 应用场景

该研究成果可应用于医疗健康领域,辅助医生诊断疾病和进行决策,尤其是在处理大量临床文本数据时,可以快速准确地提取SDoH信息,从而更好地评估患者的健康风险,制定个性化的治疗方案。此外,该方法还可以应用于公共卫生领域,用于监测和分析人群的健康状况,为制定公共卫生政策提供数据支持。

📄 摘要(原文)

Social Determinants of Health (SDoH) are economic, social and personal circumstances that affect or influence an individual's health status. SDoHs have shown to be correlated to wellness outcomes, and therefore, are useful to physicians in diagnosing diseases and in decision-making. In this work, we automatically extract SDoHs from clinical text using traditional deep learning and Large Language Models (LLMs) to find the advantages and disadvantages of each on an existing publicly available dataset. Our models outperform a previous reference point on a multilabel SDoH classification by 10 points, and we present a method and model to drastically speed up classification (12X execution time) by eliminating expensive LLM processing. The method we present combines a more nimble and efficient solution that leverages the power of the LLM for precision and traditional deep learning methods for efficiency. We also show highly performant results on a dataset supplemented with synthetic data and several traditional deep learning models that outperform LLMs. Our models and methods offer the next iteration of automatic prediction of SDoHs that impact at-risk patients.