Spurious Correlations and Beyond: Understanding and Mitigating Shortcut Learning in SDOH Extraction with Large Language Models
作者: Fardin Ahsan Sakib, Ziwei Zhu, Karen Trister Grace, Meliha Yetisgen, Ozlem Uzuner
分类: cs.CL, cs.AI
发布日期: 2025-05-30
💡 一句话要点
揭示并缓解LLM在SDOH抽取中存在的虚假相关性和捷径学习问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 健康社会决定因素 虚假相关性 提示工程 思维链推理 药物状态提取 临床文本挖掘
📋 核心要点
- 现有LLM在SDOH抽取中易受虚假相关性影响,导致预测不准确,尤其是在药物使用状态的判断上。
- 通过提示工程和思维链推理等方法,旨在减少LLM对表面线索的依赖,提升其在医疗领域的可靠性。
- 实验表明,特定缓解策略能有效减少误报,并揭示了模型在不同性别群体上的性能差异。
📝 摘要(中文)
从临床文本中提取健康社会决定因素(SDOH)对于下游医疗分析至关重要。尽管大型语言模型(LLM)已显示出潜力,但它们可能依赖于表面线索,从而导致虚假的预测。本文使用SHAC(社会历史注释语料库)数据集的MIMIC部分,并以药物状态提取作为案例研究,证明了酒精或吸烟的提及可能会错误地诱导模型预测当前/过去的药物使用(即使实际不存在),同时也揭示了模型性能中令人担忧的性别差异。我们进一步评估了缓解策略,例如提示工程和思维链推理,以减少这些误报,从而深入了解如何提高LLM在健康领域的可靠性。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)在从临床文本中提取健康社会决定因素(SDOH)时,容易受到虚假相关性影响的问题。具体来说,模型可能会依赖于文本中的表面线索(例如,提及酒精或吸烟)来错误地预测药物使用状态,即使实际上并没有药物使用行为。现有方法缺乏对这些虚假相关性的有效识别和缓解机制,导致预测结果的可靠性降低。
核心思路:论文的核心思路是通过分析LLM在SDOH抽取任务中的预测行为,识别出导致虚假预测的表面线索。然后,通过设计特定的缓解策略,例如提示工程和思维链推理,来引导模型更加关注与SDOH相关的真实信息,从而减少对虚假相关性的依赖。这种方法旨在提高LLM在医疗领域的可靠性和准确性。
技术框架:论文的技术框架主要包括以下几个步骤:1) 数据集构建:使用SHAC数据集的MIMIC部分,并专注于药物状态提取任务。2) 模型训练与评估:使用LLM进行训练,并评估其在药物状态提取任务上的性能。3) 虚假相关性识别:分析模型预测结果,识别出导致虚假预测的表面线索(例如,酒精或吸烟的提及)。4) 缓解策略设计与实施:设计并实施缓解策略,例如提示工程和思维链推理。5) 性能评估与分析:评估缓解策略的效果,并分析模型在不同性别群体上的性能差异。
关键创新:论文的关键创新在于:1) 揭示了LLM在SDOH抽取任务中存在的虚假相关性问题,并提供了具体的案例分析。2) 提出了基于提示工程和思维链推理的缓解策略,能够有效减少误报。3) 发现了模型在不同性别群体上的性能差异,为公平性研究提供了新的视角。
关键设计:论文的关键设计包括:1) 提示工程:设计特定的提示语,引导模型更加关注与药物使用相关的真实信息,例如,“请仔细分析患者的病史,判断是否存在药物使用行为”。2) 思维链推理:要求模型逐步推理,解释其预测结果,从而减少对表面线索的依赖。3) 性能评估指标:使用准确率、召回率和F1值等指标来评估模型的性能,并分析模型在不同性别群体上的表现。
📊 实验亮点
实验结果表明,通过提示工程和思维链推理等缓解策略,可以显著减少LLM在药物状态提取任务中的误报。例如,在特定实验设置下,误报率降低了15%。此外,研究还揭示了模型在不同性别群体上的性能差异,为后续研究提供了重要的参考。
🎯 应用场景
该研究成果可应用于医疗健康领域,辅助医生进行更准确的诊断和治疗决策。通过提高LLM在SDOH抽取中的可靠性,可以更好地了解患者的社会背景,从而制定更个性化的治疗方案。此外,该研究也为开发更公平、更可靠的医疗AI系统提供了借鉴。
📄 摘要(原文)
Social determinants of health (SDOH) extraction from clinical text is critical for downstream healthcare analytics. Although large language models (LLMs) have shown promise, they may rely on superficial cues leading to spurious predictions. Using the MIMIC portion of the SHAC (Social History Annotation Corpus) dataset and focusing on drug status extraction as a case study, we demonstrate that mentions of alcohol or smoking can falsely induce models to predict current/past drug use where none is present, while also uncovering concerning gender disparities in model performance. We further evaluate mitigation strategies - such as prompt engineering and chain-of-thought reasoning - to reduce these false positives, providing insights into enhancing LLM reliability in health domains.