Still Not Quite There! Evaluating Large Language Models for Comorbid Mental Health Diagnosis

作者: Amey Hengle, Atharva Kulkarni, Shantanu Patankar, Madhumitha Chandrasekaran, Sneha D'Silva, Jemima Jacob, Rashmi Gupta

分类: cs.CL, cs.AI

发布日期: 2024-10-04

备注: 24 Pages

💡 一句话要点

提出ANGST基准，评估大语言模型在抑郁-焦虑共病诊断中的能力

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 抑郁症 焦虑症 共病诊断 自然语言处理 社交媒体分析 语言模型 基准数据集 多标签分类

📋 核心要点

现有精神健康数据集通常将抑郁和焦虑等疾病孤立看待，忽略了它们之间的复杂关系。
论文构建了ANGST基准数据集，支持多标签分类，能够同时识别帖子中存在的抑郁和焦虑。
实验评估了包括GPT-4在内的多种语言模型，结果表明模型在共病诊断方面仍面临挑战，F1得分最高仅为72%。

📝 摘要（中文）

本研究提出了ANGST，这是一个全新的、首创的基准，用于从社交媒体帖子中进行抑郁-焦虑共病分类。与现有数据集通常将不同精神健康障碍之间的复杂相互作用过度简化为孤立条件不同，ANGST支持多标签分类，允许每个帖子同时被识别为指示抑郁和/或焦虑。ANGST包含2876个由专家心理学家精心标注的帖子，以及额外的7667个银标签帖子，提出了一个更具代表性的在线精神健康讨论样本。此外，我们使用各种最先进的语言模型（从Mental-BERT到GPT-4）对ANGST进行了基准测试。我们的结果为这些模型在复杂诊断场景中的能力和局限性提供了重要的见解。虽然GPT-4通常优于其他模型，但在多类共病分类中，没有一个模型的F1得分超过72%，这突显了将语言模型应用于精神健康诊断方面仍然存在的挑战。

🔬 方法详解

问题定义：论文旨在解决抑郁症和焦虑症共病诊断的问题。现有方法和数据集通常将这些精神健康问题视为独立的，忽略了它们在实际情况中经常同时出现的情况。这导致模型无法准确捕捉到共病患者的复杂心理状态，诊断效果不佳。

核心思路：论文的核心思路是构建一个能够支持多标签分类的数据集，即ANGST。该数据集允许每个社交媒体帖子同时被标注为包含抑郁和/或焦虑的迹象，从而更真实地反映了在线精神健康讨论的复杂性。通过在这个数据集上训练和评估语言模型，可以更好地了解模型在共病诊断方面的能力。

技术框架：ANGST数据集的构建包括两个阶段：首先，由专家心理学家对2876个帖子进行人工标注，形成高质量的金标签数据。然后，使用一种未知的银标签方法对额外的7667个帖子进行标注，以扩大数据集规模。论文使用多种预训练语言模型（包括Mental-BERT和GPT-4）在ANGST数据集上进行训练和评估。评估指标包括F1得分等，用于衡量模型在多类共病分类任务中的性能。

关键创新：该论文的关键创新在于提出了ANGST数据集，它是第一个专门用于抑郁症和焦虑症共病分类的基准数据集。与现有数据集相比，ANGST支持多标签分类，能够更准确地反映在线精神健康讨论的复杂性。此外，该论文还对多种最先进的语言模型在ANGST数据集上的性能进行了评估，为未来的研究提供了重要的参考。

关键设计：论文的关键设计包括：(1) ANGST数据集的多标签标注方案，允许每个帖子同时被标注为包含抑郁和/或焦虑的迹象；(2) 使用专家心理学家进行人工标注，确保数据集的质量；(3) 采用多种预训练语言模型进行实验，以全面评估模型在共病诊断方面的能力。关于银标签数据的具体生成方法，论文中没有详细描述，属于未知细节。

📊 实验亮点

实验结果表明，GPT-4在ANGST数据集上的表现优于其他模型，但在多类共病分类任务中的F1得分最高仅为72%。这表明，即使是最先进的语言模型在处理复杂的精神健康诊断问题时仍然面临挑战，未来仍有很大的提升空间。Mental-BERT等专门针对心理健康领域微调的模型表现不如GPT-4，可能表明通用大模型在知识迁移方面具有优势。

🎯 应用场景

该研究成果可应用于在线精神健康筛查、心理健康咨询辅助诊断等领域。通过利用ANGST数据集训练的模型，可以帮助识别社交媒体用户中可能存在的抑郁和焦虑共病情况，从而为他们提供及时的心理健康支持。未来，该研究可以扩展到其他精神健康疾病的共病诊断，为构建更完善的智能心理健康服务体系提供技术支撑。

📄 摘要（原文）

In this study, we introduce ANGST, a novel, first-of-its kind benchmark for depression-anxiety comorbidity classification from social media posts. Unlike contemporary datasets that often oversimplify the intricate interplay between different mental health disorders by treating them as isolated conditions, ANGST enables multi-label classification, allowing each post to be simultaneously identified as indicating depression and/or anxiety. Comprising 2876 meticulously annotated posts by expert psychologists and an additional 7667 silver-labeled posts, ANGST posits a more representative sample of online mental health discourse. Moreover, we benchmark ANGST using various state-of-the-art language models, ranging from Mental-BERT to GPT-4. Our results provide significant insights into the capabilities and limitations of these models in complex diagnostic scenarios. While GPT-4 generally outperforms other models, none achieve an F1 score exceeding 72% in multi-class comorbid classification, underscoring the ongoing challenges in applying language models to mental health diagnostics.

Still Not Quite There! Evaluating Large Language Models for Comorbid Mental Health Diagnosis

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理