A Multi-Stage Large Language Model Framework for Extracting Suicide-Related Social Determinants of Health

📄 arXiv: 2508.05003v1 📥 PDF

作者: Song Wang, Yishu Wei, Haotian Ma, Max Lovitt, Kelly Deng, Yuan Meng, Zihan Xu, Jingze Zhang, Yunyu Xiao, Ying Ding, Xuhai Xu, Joydeep Ghosh, Yifan Peng

分类: cs.CL, cs.AI

发布日期: 2025-08-07


💡 一句话要点

提出多阶段大语言模型框架,用于抽取与自杀相关的健康社会决定因素

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 健康社会决定因素 自杀风险 大语言模型 多阶段框架 文本抽取 可解释性 自然语言处理

📋 核心要点

  1. 现有方法在识别自杀相关的健康社会决定因素时,面临长尾分布、关键压力源分析和模型可解释性不足等挑战。
  2. 论文提出多阶段大语言模型框架,通过分解任务和提供中间解释,提升SDoH因素提取的准确性和可解释性。
  3. 实验表明,该框架在SDoH因素提取和相关上下文检索方面优于现有模型,且微调小模型可降低推理成本。

📝 摘要(中文)

本研究旨在理解导致自杀事件的健康社会决定因素(SDoH),这对于早期干预和预防至关重要。然而,以数据驱动的方法实现这一目标面临长尾因素分布、分析自杀事件前的关键压力源以及模型可解释性有限等挑战。我们提出了一种多阶段大语言模型框架,以增强从非结构化文本中提取SDoH因素的能力。我们的方法与最先进的语言模型(如预训练的BioBERT和GPT-3.5-turbo)和推理模型(如DeepSeek-R1)进行了比较。我们还评估了模型的解释如何帮助人们更快、更准确地注释SDoH因素。分析包括自动比较和初步用户研究。结果表明,我们提出的框架在提取SDoH因素的总体任务和检索相关上下文的更细粒度任务中均表现出性能提升。此外,我们表明,微调一个较小的、特定于任务的模型可以实现可比甚至更好的性能,同时降低推理成本。多阶段设计不仅增强了提取能力,还提供了中间解释,从而提高了模型的可解释性。我们的方法提高了从非结构化文本中提取与自杀相关的SDoH的准确性和透明度。这些进步有可能支持早期识别高危人群,并为更有效的预防策略提供信息。

🔬 方法详解

问题定义:论文旨在解决从非结构化文本中准确、高效地提取与自杀相关的健康社会决定因素(SDoH)的问题。现有方法,如直接使用预训练语言模型,在处理长尾分布的SDoH因素、识别关键压力源以及提供模型可解释性方面存在不足。这些痛点限制了早期干预和预防策略的有效性。

核心思路:论文的核心思路是将SDoH因素提取任务分解为多个阶段,每个阶段专注于解决特定子问题,从而提高整体性能和可解释性。通过引入中间解释,该框架能够更好地理解模型的决策过程,并为人工标注提供辅助。此外,通过微调较小的任务特定模型,降低了推理成本,使其更易于部署。

技术框架:该框架采用多阶段流程,具体阶段可能包括:1) 上下文检索:从大量文本数据中检索与自杀相关的潜在文本片段。2) 因素识别:从检索到的文本片段中识别SDoH因素。3) 关系抽取:确定SDoH因素与自杀风险之间的关系。4) 解释生成:为每个提取的SDoH因素生成解释,说明其与自杀风险的关联。每个阶段可能使用不同的语言模型或技术,并进行优化以实现最佳性能。

关键创新:该框架的关键创新在于其多阶段设计和中间解释的引入。与传统的端到端方法相比,多阶段设计允许针对每个子任务进行优化,从而提高整体性能。中间解释的生成提高了模型的可解释性,使得用户能够理解模型的决策过程,并验证提取的SDoH因素的合理性。此外,通过微调较小的任务特定模型,降低了推理成本,使其更易于部署。

关键设计:论文中可能涉及的关键技术细节包括:1) 用于上下文检索的检索模型的选择和优化,例如使用BM25或基于Transformer的模型。2) 用于因素识别和关系抽取的命名实体识别(NER)和关系抽取模型的选择和微调。3) 解释生成模块的设计,例如使用生成式语言模型或基于规则的方法。4) 损失函数的设计,例如使用交叉熵损失或对比学习损失。5) 模型训练和评估策略,例如使用交叉验证或留出法。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该多阶段框架在提取SDoH因素的总体任务和检索相关上下文的更细粒度任务中均表现出性能提升,优于BioBERT、GPT-3.5-turbo和DeepSeek-R1等基线模型。此外,微调后的较小模型在保持甚至提升性能的同时,显著降低了推理成本,使其更易于部署。

🎯 应用场景

该研究成果可应用于心理健康领域的早期干预和预防。通过自动提取社交媒体、电子病历等非结构化文本中的SDoH因素,可以帮助识别高危人群,并为制定更有效的预防策略提供信息。此外,该框架的可解释性设计有助于提高医护人员对AI辅助决策的信任度,促进其在临床实践中的应用。

📄 摘要(原文)

Background: Understanding social determinants of health (SDoH) factors contributing to suicide incidents is crucial for early intervention and prevention. However, data-driven approaches to this goal face challenges such as long-tailed factor distributions, analyzing pivotal stressors preceding suicide incidents, and limited model explainability. Methods: We present a multi-stage large language model framework to enhance SDoH factor extraction from unstructured text. Our approach was compared to other state-of-the-art language models (i.e., pre-trained BioBERT and GPT-3.5-turbo) and reasoning models (i.e., DeepSeek-R1). We also evaluated how the model's explanations help people annotate SDoH factors more quickly and accurately. The analysis included both automated comparisons and a pilot user study. Results: We show that our proposed framework demonstrated performance boosts in the overarching task of extracting SDoH factors and in the finer-grained tasks of retrieving relevant context. Additionally, we show that fine-tuning a smaller, task-specific model achieves comparable or better performance with reduced inference costs. The multi-stage design not only enhances extraction but also provides intermediate explanations, improving model explainability. Conclusions: Our approach improves both the accuracy and transparency of extracting suicide-related SDoH from unstructured texts. These advancements have the potential to support early identification of individuals at risk and inform more effective prevention strategies.