Lived Experience Not Found: LLMs Struggle to Align with Experts on Addressing Adverse Drug Reactions from Psychiatric Medication Use

📄 arXiv: 2410.19155v3 📥 PDF

作者: Mohit Chandra, Siddharth Sriraman, Gaurav Verma, Harneet Singh Khanuja, Jose Suarez Campayo, Zihang Li, Michael L. Birnbaum, Munmun De Choudhury

分类: cs.CL, cs.AI, cs.CY

发布日期: 2024-10-24 (更新: 2025-01-07)

备注: 30 pages, 8 figures, 16 tables


💡 一句话要点

提出Psych-ADR基准和ADRA框架,评估LLM在精神药物不良反应处理中的专家对齐度

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 不良反应 精神科药物 基准测试 评估框架

📋 核心要点

  1. 精神科药物不良反应是住院主因,现有医疗资源不足以充分解决相关问题,LLM有潜力填补空白。
  2. 论文提出Psych-ADR基准和ADRA框架,系统评估LLM在检测不良反应和提供专家对齐策略方面的能力。
  3. 实验表明,LLM在理解ADR细微差别和提供可操作建议方面存在不足,但情感和语气与专家相似。

📝 摘要(中文)

精神科药物引起的不良反应(ADRs)是精神疾病患者住院的主要原因。由于医疗系统和在线社区在解决ADR相关问题方面存在局限性,大型语言模型(LLMs)有潜力填补这一空白。尽管LLMs的能力不断增强,但过去的研究并未探索它们在检测与精神科药物相关的ADRs或提供有效的危害降低策略方面的能力。为了解决这个问题,我们引入了Psych-ADR基准和不良反应评估(ADRA)框架,以系统地评估LLM在检测ADR表达和提供与专家对齐的缓解策略方面的性能。我们的分析表明,LLMs难以理解ADRs的细微差别,也难以区分ADRs的类型。虽然LLMs在文本表达的情感和语气方面与专家一致,但它们的回答更复杂、更难阅读,并且只有70.86%与专家策略一致。此外,它们提供的可操作建议平均减少了12.32%。我们的工作为评估高风险领域中以策略为导向的任务中的LLMs提供了一个全面的基准和评估框架。

🔬 方法详解

问题定义:论文旨在解决LLM在处理精神科药物不良反应(ADRs)方面的能力不足问题。现有方法缺乏对LLM在检测ADR表达和提供专家对齐的缓解策略方面的系统评估。现有在线社区和医疗系统在解决ADR相关问题上存在局限性,无法充分满足患者需求。

核心思路:论文的核心思路是构建一个专门针对精神科药物ADR的基准测试集(Psych-ADR)和一个评估框架(ADRA),用于系统地评估LLM在理解ADR的细微差别、区分ADR类型以及提供与专家建议对齐的缓解策略方面的能力。通过对比LLM的输出与专家意见,揭示LLM在处理此类高风险任务中的局限性。

技术框架:该研究的技术框架主要包含两个部分:Psych-ADR基准的构建和ADRA评估框架的设计。Psych-ADR基准包含一系列与精神科药物ADR相关的问题和情境。ADRA评估框架则定义了一系列指标,用于评估LLM在ADR检测、策略对齐、可操作性、情感表达和文本可读性等方面的表现。研究人员使用ADRA框架对LLM的输出进行分析,并与专家意见进行对比。

关键创新:该研究的关键创新在于提出了Psych-ADR基准和ADRA框架,这是首次针对LLM在精神科药物ADR处理能力方面的系统性评估。该基准和框架为后续研究提供了标准化的评估工具,有助于推动LLM在该领域的应用。

关键设计:ADRA框架的关键设计包括以下几个方面:1) 策略对齐度量:评估LLM提供的缓解策略与专家建议的相似程度。2) 可操作性度量:评估LLM提供的建议是否具有实际操作性,例如是否提供了具体的步骤或资源。3) 情感表达度量:评估LLM在回复中表达的情感是否恰当,例如是否具有同情心和理解。4) 文本可读性度量:评估LLM回复的复杂度和易读性,确保患者能够理解。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,LLM在ADR检测和策略对齐方面表现不佳,与专家策略的对齐度仅为70.86%,可操作建议平均减少了12.32%。尽管LLM在情感和语气上与专家相似,但其回复更复杂且难以阅读。这些发现揭示了LLM在高风险领域应用中的局限性,强调了进一步研究和改进的必要性。

🎯 应用场景

该研究成果可应用于开发智能化的精神健康支持系统,帮助患者更好地管理药物不良反应。通过集成LLM,系统可以自动检测患者报告的ADR,并提供个性化的缓解建议。此外,该研究还可以用于改进精神科医生的决策支持系统,辅助医生制定更合理的治疗方案,从而提高患者的治疗效果和生活质量。

📄 摘要(原文)

Adverse Drug Reactions (ADRs) from psychiatric medications are the leading cause of hospitalizations among mental health patients. With healthcare systems and online communities facing limitations in resolving ADR-related issues, Large Language Models (LLMs) have the potential to fill this gap. Despite the increasing capabilities of LLMs, past research has not explored their capabilities in detecting ADRs related to psychiatric medications or in providing effective harm reduction strategies. To address this, we introduce the Psych-ADR benchmark and the Adverse Drug Reaction Response Assessment (ADRA) framework to systematically evaluate LLM performance in detecting ADR expressions and delivering expert-aligned mitigation strategies. Our analyses show that LLMs struggle with understanding the nuances of ADRs and differentiating between types of ADRs. While LLMs align with experts in terms of expressed emotions and tone of the text, their responses are more complex, harder to read, and only 70.86% aligned with expert strategies. Furthermore, they provide less actionable advice by a margin of 12.32% on average. Our work provides a comprehensive benchmark and evaluation framework for assessing LLMs in strategy-driven tasks within high-risk domains.