Evaluating Large Language Models for Anxiety and Depression Classification using Counseling and Psychotherapy Transcripts
作者: Junwei Sun, Siqi Ma, Yiran Fan, Peter Washington
分类: cs.CL, cs.CY, cs.ET, cs.LG
发布日期: 2024-07-18
💡 一句话要点
评估大型语言模型在咨询记录中焦虑和抑郁分类的有效性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 焦虑分类 抑郁分类 心理咨询记录 Transformer模型
📋 核心要点
- 现有方法在处理长篇对话记录时,难以有效提取焦虑和抑郁相关的细微特征,导致分类性能受限。
- 论文探索使用大型语言模型(LLMs)和传统机器学习方法,对咨询记录进行焦虑和抑郁分类,旨在提升分类准确性。
- 实验结果表明,当前最先进的模型在分类性能上并未超越传统机器学习方法,提示了LLM在该任务上的局限性。
📝 摘要(中文)
本研究旨在评估传统机器学习和大型语言模型(LLMs)在从长篇对话记录中分类焦虑和抑郁症方面的有效性。我们微调了已建立的Transformer模型(BERT、RoBERTa、Longformer)和更新的大型模型(Mistral-7B),训练了一个具有特征工程的支持向量机,并通过提示评估了GPT模型。我们观察到,与传统的机器学习方法相比,最先进的模型未能提高分类结果。
🔬 方法详解
问题定义:论文旨在解决从咨询和心理治疗的长篇对话记录中自动分类焦虑和抑郁的问题。现有方法,特别是基于传统机器学习的方法,可能难以捕捉长文本中的复杂语义关系和细微的情感变化,而大型语言模型理论上具备更强的文本理解能力,但其在这一特定领域的表现尚不明确。
核心思路:论文的核心思路是比较传统机器学习方法和大型语言模型在焦虑和抑郁分类任务上的性能。通过对不同类型的模型进行训练和评估,旨在确定哪种方法更适合处理长篇对话记录,并分析大型语言模型在该任务中的优势和局限性。
技术框架:研究采用了以下技术框架:1) 数据集:使用咨询和心理治疗的对话记录。2) 模型:包括传统机器学习模型(支持向量机,SVM)和大型语言模型(BERT, RoBERTa, Longformer, Mistral-7B, GPT系列)。3) 特征工程:为SVM模型设计特征。4) 微调:对Transformer模型进行微调。5) 评估:使用标准分类指标评估模型性能。
关键创新:论文的关键创新在于对多种大型语言模型在特定领域的应用进行了实证评估,并将其与传统机器学习方法进行了直接比较。这有助于了解大型语言模型在处理长篇心理咨询记录时的实际能力,并为未来的研究方向提供指导。
关键设计:论文的关键设计包括:1) 选择具有代表性的Transformer模型和大型语言模型。2) 设计合适的特征工程方法,以支持传统机器学习模型。3) 使用标准的分类指标(如准确率、精确率、召回率、F1值)来评估模型性能。4) 通过prompting方式评估GPT模型,探索其零样本或少样本学习能力。
📊 实验亮点
实验结果表明,经过微调的Transformer模型(BERT、RoBERTa、Longformer)和大型语言模型(Mistral-7B)在焦虑和抑郁分类任务上的表现并未显著优于经过特征工程的支持向量机(SVM)。这一发现挑战了大型语言模型在特定领域应用中的普遍优势,提示需要更深入地研究其在处理长篇心理咨询记录时的局限性。
🎯 应用场景
该研究成果可应用于心理健康领域的自动诊断和辅助治疗。通过自动分析咨询记录,可以帮助心理医生更快速、准确地识别患者的焦虑和抑郁症状,从而提高诊断效率和治疗效果。此外,该技术还可以用于在线心理咨询平台,为用户提供初步的心理健康评估。
📄 摘要(原文)
We aim to evaluate the efficacy of traditional machine learning and large language models (LLMs) in classifying anxiety and depression from long conversational transcripts. We fine-tune both established transformer models (BERT, RoBERTa, Longformer) and more recent large models (Mistral-7B), trained a Support Vector Machine with feature engineering, and assessed GPT models through prompting. We observe that state-of-the-art models fail to enhance classification outcomes compared to traditional machine learning methods.