SDoH-GPT: Using Large Language Models to Extract Social Determinants of Health (SDoH)

作者: Bernardo Consoli, Xizhi Wu, Song Wang, Xinyu Zhao, Yanshan Wang, Justin Rousseau, Tom Hartvigsen, Li Shen, Huanmei Wu, Yifan Peng, Qi Long, Tianlong Chen, Ying Ding

分类: cs.CL, cs.AI

发布日期: 2024-07-24

💡 一句话要点

SDoH-GPT：利用大语言模型提取社会健康决定因素，显著降低标注成本。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 社会健康决定因素 大语言模型 少样本学习 医疗文本挖掘 自然语言处理

📋 核心要点

现有方法依赖大量人工标注，成本高昂且难以复用，限制了SDoH提取的效率和可扩展性。
SDoH-GPT利用对比示例和简洁指令，通过少样本学习方式，有效提取SDoH，无需大量标注数据。
实验表明，SDoH-GPT显著降低了时间和成本，并取得了与人工标注高度一致的结果，AUROC分数超过0.90。

📝 摘要（中文）

从非结构化医疗记录中提取社会健康决定因素(SDoH)高度依赖于劳动密集型标注，这些标注通常是任务特定的，阻碍了可重用性和共享。本研究提出了SDoH-GPT，一种简单有效的少样本大语言模型(LLM)方法，利用对比示例和简洁指令来提取SDoH，而无需依赖大量的医疗标注或昂贵的人工干预。它在时间和成本上分别实现了十倍和二十倍的降低，并且与人类标注者的一致性更高，Cohen's kappa值高达0.92。SDoH-GPT和XGBoost的创新结合利用了两者的优势，确保了高精度和计算效率，同时始终保持0.90以上的AUROC分数。在三个不同的数据集上进行的测试证实了其鲁棒性和准确性。这项研究强调了利用LLM彻底改变医疗记录分类的潜力，证明了它们能够以显著减少的时间和成本实现高度准确的分类。

🔬 方法详解

问题定义：从非结构化医疗记录中提取社会健康决定因素（SDoH）是一项重要的任务，但传统方法依赖于大量的人工标注，这不仅耗时耗力，而且标注数据通常是任务特定的，难以复用，限制了模型的泛化能力。现有方法的痛点在于标注成本高昂、可移植性差。

核心思路：SDoH-GPT的核心思路是利用大语言模型（LLM）的强大泛化能力和少样本学习能力，通过提供少量的对比示例和简洁的指令，引导LLM理解SDoH的概念并进行有效提取。这种方法避免了对大量标注数据的依赖，显著降低了标注成本。

技术框架：SDoH-GPT方法主要包含以下几个步骤：1) 设计对比示例，包括正例和负例，用于指导LLM理解SDoH的特征；2) 构建简洁的指令，明确任务目标和输出格式；3) 使用LLM进行少样本学习，根据对比示例和指令提取SDoH；4) 将LLM的输出与XGBoost模型结合，进一步提高分类精度和鲁棒性。整体流程旨在利用LLM的语义理解能力和XGBoost的分类能力，实现高效准确的SDoH提取。

关键创新：该论文的关键创新在于将大语言模型应用于SDoH提取任务，并提出了一种基于对比示例和简洁指令的少样本学习方法。与传统方法相比，SDoH-GPT无需大量标注数据，显著降低了标注成本，并提高了模型的可移植性和泛化能力。此外，将LLM与XGBoost结合，进一步提升了模型的性能。

关键设计：在对比示例的设计上，需要精心选择正例和负例，以充分展示SDoH的特征。指令的设计需要简洁明了，避免歧义。LLM的选择可以根据具体任务和数据集进行调整。XGBoost模型的参数需要进行优化，以达到最佳的分类效果。具体的参数设置和网络结构等技术细节在论文中可能没有详细描述，属于未知信息。

📊 实验亮点

SDoH-GPT在三个不同的数据集上进行了测试，结果表明，该方法在时间和成本上分别实现了十倍和二十倍的降低，并且与人类标注者的一致性更高，Cohen's kappa值高达0.92。SDoH-GPT和XGBoost的结合始终保持0.90以上的AUROC分数，验证了其鲁棒性和准确性。这些结果表明，SDoH-GPT是一种高效且准确的SDoH提取方法。

🎯 应用场景

SDoH-GPT可广泛应用于医疗健康领域，例如辅助医生进行疾病诊断、风险评估和个性化治疗方案制定。通过自动提取SDoH，可以更全面地了解患者的社会环境因素，从而更好地满足患者的需求。该研究成果有助于提升医疗服务的质量和效率，并为公共卫生政策的制定提供数据支持。

📄 摘要（原文）

Extracting social determinants of health (SDoH) from unstructured medical notes depends heavily on labor-intensive annotations, which are typically task-specific, hampering reusability and limiting sharing. In this study we introduced SDoH-GPT, a simple and effective few-shot Large Language Model (LLM) method leveraging contrastive examples and concise instructions to extract SDoH without relying on extensive medical annotations or costly human intervention. It achieved tenfold and twentyfold reductions in time and cost respectively, and superior consistency with human annotators measured by Cohen's kappa of up to 0.92. The innovative combination of SDoH-GPT and XGBoost leverages the strengths of both, ensuring high accuracy and computational efficiency while consistently maintaining 0.90+ AUROC scores. Testing across three distinct datasets has confirmed its robustness and accuracy. This study highlights the potential of leveraging LLMs to revolutionize medical note classification, demonstrating their capability to achieve highly accurate classifications with significantly reduced time and cost.

SDoH-GPT: Using Large Language Models to Extract Social Determinants of Health (SDoH)

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理