Detecting HIV-Related Stigma in Clinical Narratives Using Large Language Models
作者: Ziyi Chen, Yasir Khan, Mengyuan Zhang, Cheng Peng, Mengxian Lyu, Yiyang Liu, Krishna Vaddiparti, Robert L Cook, Mattia Prosperi, Yonghui Wu
分类: cs.CL, cs.AI
发布日期: 2026-04-09
💡 一句话要点
利用大型语言模型检测临床叙述中与HIV相关的污名化现象
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: HIV污名化 自然语言处理 大型语言模型 临床叙述分析 文本分类
📋 核心要点
- 现有方法缺乏有效提取和分类临床叙述中HIV相关污名化信息的工具,阻碍了对患者心理健康的全面评估。
- 该研究提出利用大型语言模型,结合专家知识和词嵌入技术,自动识别和分类临床记录中的HIV污名化信息。
- 实验结果表明,GatorTron-large模型表现最佳(Micro F1 = 0.62),小样本学习能显著提升生成式LLM的性能。
📝 摘要(中文)
与人类免疫缺陷病毒(HIV)相关的污名化是影响艾滋病毒感染者(PLWH)心理健康、护理参与和治疗效果的关键社会心理决定因素。尽管临床叙述中记录了与污名化相关的经历,但缺乏现成的工具来提取和分类这些信息。本研究旨在开发一种基于大型语言模型(LLM)的工具,用于识别临床记录中的HIV污名化现象。我们识别了2012年至2022年期间在佛罗里达大学(UF)健康中心接受治疗的PLWH的临床记录。通过专家策划的与污名化相关的关键词识别候选句子,并通过临床词嵌入迭代扩展。总共手动标注了1,332个句子,涵盖四个污名化子量表:对公众态度的关注、披露顾虑、负面自我形象和个人化污名。我们比较了GatorTron-large和BERT作为基于编码器的基线模型,以及GPT-OSS-20B、LLaMA-8B和MedGemma-27B作为生成式LLM,在零样本和小样本提示下进行评估。GatorTron-large取得了最佳的整体性能(Micro F1 = 0.62)。小样本提示显著提高了生成模型的性能,其中5-shot GPT-OSS-20B和LLaMA-8B分别实现了0.57和0.59的Micro-F1分数。性能因污名化子量表而异,其中负面自我形象表现出最高的预测性,而个人化污名仍然最具挑战性。零样本生成推理表现出不可忽略的失败率(高达32%)。这项研究开发了第一个实用的NLP工具,用于识别临床记录中的HIV污名化现象。
🔬 方法详解
问题定义:该论文旨在解决从临床叙述中自动检测与HIV相关的污名化信息的问题。现有方法主要依赖人工分析,效率低下且成本高昂。缺乏能够自动提取和分类这些信息的有效工具,使得大规模分析和利用这些数据变得困难。
核心思路:论文的核心思路是利用大型语言模型(LLM)的强大自然语言理解能力,结合专家知识和词嵌入技术,构建一个能够自动识别和分类临床记录中HIV污名化信息的工具。通过预训练的LLM,可以学习到丰富的语言知识,从而更好地理解临床文本中的细微差别和上下文信息。
技术框架:整体流程包括以下几个主要阶段:1) 数据收集:从佛罗里达大学健康中心的临床记录中收集PLWH的临床笔记。2) 候选句子识别:使用专家策划的污名化相关关键词,并通过临床词嵌入迭代扩展,识别候选句子。3) 数据标注:手动标注1,332个句子,涵盖四个污名化子量表。4) 模型训练与评估:比较GatorTron-large、BERT、GPT-OSS-20B、LLaMA-8B和MedGemma-27B等模型在零样本和小样本提示下的性能。
关键创新:该研究的主要创新在于首次将大型语言模型应用于自动检测临床叙述中的HIV污名化信息。通过结合专家知识和词嵌入技术,提高了候选句子的识别准确率。此外,该研究还比较了不同LLM在零样本和小样本提示下的性能,为选择合适的模型提供了参考。
关键设计:在模型选择方面,研究比较了基于编码器的模型(GatorTron-large、BERT)和生成式LLM(GPT-OSS-20B、LLaMA-8B、MedGemma-27B)。在提示策略方面,研究采用了零样本和小样本提示,并探索了不同数量的样本对生成模型性能的影响。在评估指标方面,研究使用了Micro F1分数来衡量模型的整体性能,并分析了模型在不同污名化子量表上的表现。
📊 实验亮点
实验结果表明,GatorTron-large模型在整体性能上表现最佳,Micro F1分数为0.62。小样本提示显著提高了生成模型的性能,5-shot GPT-OSS-20B和LLaMA-8B分别实现了0.57和0.59的Micro-F1分数。研究还发现,不同污名化子量表的预测难度不同,负面自我形象的可预测性最高,而个人化污名最具挑战性。零样本生成推理的失败率较高,表明需要进一步优化提示策略。
🎯 应用场景
该研究成果可应用于临床决策支持系统,帮助医护人员更好地识别和理解患者的污名化经历,从而提供更个性化的心理支持和治疗方案。此外,该工具还可以用于大规模分析临床数据,了解HIV污名化对患者健康和社会行为的影响,为制定更有效的公共卫生政策提供依据。未来,该技术可以扩展到其他疾病相关污名化的检测。
📄 摘要(原文)
Human immunodeficiency virus (HIV)-related stigma is a critical psychosocial determinant of health for people living with HIV (PLWH), influencing mental health, engagement in care, and treatment outcomes. Although stigma-related experiences are documented in clinical narratives, there is a lack of off-the-shelf tools to extract and categorize them. This study aims to develop a large language model (LLM)-based tool for identifying HIV stigma from clinical notes. We identified clinical notes from PLWH receiving care at the University of Florida (UF) Health between 2012 and 2022. Candidate sentences were identified using expert-curated stigma-related keywords and iteratively expanded via clinical word embeddings. A total of 1,332 sentences were manually annotated across four stigma subscales: Concern with Public Attitudes, Disclosure Concerns, Negative Self-Image, and Personalized Stigma. We compared GatorTron-large and BERT as encoder-based baselines, and GPT-OSS-20B, LLaMA-8B, and MedGemma-27B as generative LLMs, under zero-shot and few-shot prompting. GatorTron-large achieved the best overall performance (Micro F1 = 0.62). Few-shot prompting substantially improved generative model performance, with 5-shot GPT-OSS-20B and LLaMA-8B achieving Micro-F1 scores of 0.57 and 0.59, respectively. Performance varied by stigma subscale, with Negative Self-Image showing the highest predictability and Personalized Stigma remaining the most challenging. Zero-shot generative inference exhibited non-trivial failure rates (up to 32%). This study develops the first practical NLP tool for identifying HIV stigma in clinical notes.