Large Language Models for Mental Health Diagnostic Assessments: Exploring The Potential of Large Language Models for Assisting with Mental Health Diagnostic Assessments -- The Depression and Anxiety Case

📄 arXiv: 2501.01305v1 📥 PDF

作者: Kaushik Roy, Harshul Surana, Darssan Eswaramoorthi, Yuxin Zi, Vedant Palit, Ritvik Garimella, Amit Sheth

分类: cs.CL

发布日期: 2025-01-02


💡 一句话要点

探索大语言模型辅助精神健康诊断评估:以抑郁症和焦虑症为例

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 精神健康诊断 抑郁症 焦虑症 提示工程 微调 PHQ-9 GAD-7

📋 核心要点

  1. 医疗系统面临患者数量激增和医护人员短缺的双重压力,亟需AI辅助诊断工具。
  2. 论文探索利用LLM模拟临床诊断流程,通过提示工程和微调,使模型遵循PHQ-9和GAD-7标准。
  3. 实验评估了不同LLM(包括专有和开源模型)在诊断结果上与专家验证的真实结果的一致性。

📝 摘要(中文)

大型语言模型(LLM)在辅助诊断评估方面的潜力日益受到医疗保健专业人员的关注,这有助于缓解因患者数量过多和医护人员短缺给医疗保健系统带来的压力。为了使LLM在支持诊断评估方面有效,至关重要的是,它们必须紧密复制临床医生使用的标准诊断程序。本文专门研究了患者健康问卷-9(PHQ-9)中描述的重度抑郁症(MDD)和广泛性焦虑症-7(GAD-7)问卷中描述的广泛性焦虑症(GAD)的诊断评估过程。我们研究了各种提示和微调技术,以指导专有和开源LLM遵守这些流程,并评估LLM生成的诊断结果与专家验证的真实结果之间的一致性。对于微调,我们使用Mentalllama和Llama模型,而对于提示,我们尝试使用GPT-3.5和GPT-4o等专有模型,以及llama-3.1-8b和mixtral-8x7b等开源模型。

🔬 方法详解

问题定义:论文旨在解决如何利用大型语言模型(LLM)辅助精神健康诊断评估的问题,特别是针对重度抑郁症(MDD)和广泛性焦虑症(GAD)。现有方法的痛点在于,LLM在诊断评估中未能有效复制临床医生的标准诊断流程,导致诊断结果与实际情况存在偏差。

核心思路:论文的核心思路是通过提示工程(Prompting)和微调(Fine-tuning)技术,引导LLM遵循PHQ-9和GAD-7等标准问卷的诊断流程。通过使LLM模拟临床医生的诊断过程,提高其诊断结果的准确性和可靠性。

技术框架:整体框架包括数据准备、模型选择、提示工程/微调、结果评估四个主要阶段。首先,准备用于微调和评估的数据集,包括PHQ-9和GAD-7问卷数据。然后,选择合适的LLM,包括专有模型(如GPT-3.5和GPT-4o)和开源模型(如llama-3.1-8b和mixtral-8x7b)。接下来,设计合适的提示或进行微调,使LLM能够根据问卷回答进行诊断。最后,评估LLM生成的诊断结果与专家验证的真实结果之间的一致性。

关键创新:论文的关键创新在于探索了多种提示工程和微调技术,以指导LLM遵循标准诊断流程。通过对比不同模型和技术的表现,揭示了LLM在精神健康诊断评估中的潜力和局限性。与现有方法相比,该研究更加注重LLM对临床诊断流程的模拟,从而提高了诊断结果的可靠性。

关键设计:在提示工程方面,论文设计了详细的提示模板,引导LLM逐步分析问卷回答并给出诊断结果。在微调方面,论文使用了Mentalllama和Llama模型,并针对PHQ-9和GAD-7问卷数据进行了微调。具体的参数设置和损失函数等技术细节在论文中未明确说明,属于未知信息。

🖼️ 关键图片

fig_0

📊 实验亮点

论文对比了多种LLM在PHQ-9和GAD-7诊断评估中的表现,包括专有模型GPT-3.5和GPT-4o,以及开源模型llama-3.1-8b和mixtral-8x7b。通过微调和提示工程,LLM在一定程度上能够复制临床医生的诊断流程,并与专家验证的真实结果保持较高的一致性。具体的性能数据和提升幅度在摘要中未明确给出,属于未知信息。

🎯 应用场景

该研究成果可应用于开发AI辅助精神健康诊断工具,减轻医疗系统的压力,提高诊断效率和准确性。未来,可将该方法推广到其他精神疾病的诊断评估中,并结合多模态数据(如语音、图像)进行更全面的诊断。

📄 摘要(原文)

Large language models (LLMs) are increasingly attracting the attention of healthcare professionals for their potential to assist in diagnostic assessments, which could alleviate the strain on the healthcare system caused by a high patient load and a shortage of providers. For LLMs to be effective in supporting diagnostic assessments, it is essential that they closely replicate the standard diagnostic procedures used by clinicians. In this paper, we specifically examine the diagnostic assessment processes described in the Patient Health Questionnaire-9 (PHQ-9) for major depressive disorder (MDD) and the Generalized Anxiety Disorder-7 (GAD-7) questionnaire for generalized anxiety disorder (GAD). We investigate various prompting and fine-tuning techniques to guide both proprietary and open-source LLMs in adhering to these processes, and we evaluate the agreement between LLM-generated diagnostic outcomes and expert-validated ground truth. For fine-tuning, we utilize the Mentalllama and Llama models, while for prompting, we experiment with proprietary models like GPT-3.5 and GPT-4o, as well as open-source models such as llama-3.1-8b and mixtral-8x7b.