Large Language Models for Depression Recognition in Spoken Language Integrating Psychological Knowledge
作者: Yupei Li, Shuaijie Shao, Manuel Milling, Björn W. Schuller
分类: cs.HC, cs.CL
发布日期: 2025-05-28
期刊: Frontiers in Computer Science, Volume 7, 2025
DOI: 10.3389/fcomp.2025.1629725
🔗 代码/项目: GITHUB
💡 一句话要点
提出一种融合心理学知识的多模态抑郁症检测方法,利用大语言模型提升识别精度。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 抑郁症检测 多模态学习 大语言模型 心理学知识 语音特征
📋 核心要点
- 现有抑郁症检测方法依赖文本信息,忽略了语音语调等非文本线索,且缺乏心理学专业知识的指导。
- 该论文提出一种多模态抑郁症检测方法,利用Wav2Vec提取音频特征,并结合心理学知识增强大语言模型。
- 实验结果表明,该方法在DAIC-WOZ数据集上,相较于基线方法,在MAE和RMSE指标上均有显著提升。
📝 摘要(中文)
抑郁症日益受到公众和人工智能研究的关注。虽然深度神经网络已被用于识别,但它们在实际应用中仍存在不足。大型语言模型(LLM)显示出强大的潜力,但需要针对特定领域进行微调,并且难以处理非文本线索。由于抑郁症通常通过语调和行为而非明确的文本来表达,因此仅依赖语言是不够的。若不结合心理学专业知识,诊断准确性也会受到影响。为了解决这些局限性,我们首次将LLM应用于使用DAIC-WOZ数据集的多模态抑郁症检测。我们使用预训练模型Wav2Vec提取音频特征,并将其映射到基于文本的LLM以进行进一步处理。我们还提出了一种新颖的策略,将心理学知识融入LLM,以提高诊断性能,具体来说,使用问答集来授予LLM授权知识。与相关原始论文提出的基准分数相比,我们的方法在平均绝对误差(MAE)和均方根误差(RMSE)方面均取得了显著改善。代码已在https://github.com/myxp-lyp/Depression-detection.git上发布。
🔬 方法详解
问题定义:现有抑郁症检测方法主要依赖文本信息,忽略了语音、语调等重要的非文本线索,导致识别精度不高。此外,缺乏心理学专业知识的指导,使得模型难以准确捕捉抑郁症患者的细微特征。现有方法难以有效利用多模态信息,且泛化能力有限。
核心思路:该论文的核心思路是将语音信息和心理学知识融入到大语言模型中,从而提升抑郁症检测的准确性。通过Wav2Vec提取语音特征,并将其映射到文本空间,使得LLM能够处理语音信息。同时,利用问答集的形式,将心理学知识注入到LLM中,增强其对抑郁症相关概念和症状的理解。
技术框架:整体框架包括以下几个主要模块:1) 音频特征提取模块:使用预训练的Wav2Vec模型提取音频特征。2) 特征映射模块:将提取的音频特征映射到文本空间,使其能够被LLM处理。3) 知识注入模块:构建问答集,将心理学知识注入到LLM中。4) 抑郁症检测模块:利用微调后的LLM进行抑郁症检测。整个流程是先提取音频特征,然后将特征和心理学知识输入到LLM中,最后由LLM输出抑郁症的诊断结果。
关键创新:该论文的关键创新在于:1) 首次将LLM应用于多模态抑郁症检测,并取得了较好的效果。2) 提出了一种新颖的心理学知识注入方法,通过问答集的形式,有效地增强了LLM对抑郁症相关知识的理解。3) 将语音特征和心理学知识有效地融合到LLM中,提升了抑郁症检测的准确性。
关键设计:论文的关键设计包括:1) 使用预训练的Wav2Vec模型提取音频特征,充分利用了预训练模型的强大能力。2) 构建高质量的问答集,确保注入的心理学知识的准确性和有效性。3) 对LLM进行微调,使其能够更好地适应抑郁症检测任务。具体的参数设置和网络结构等技术细节在论文中没有详细描述,属于未知信息。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在DAIC-WOZ数据集上取得了显著的性能提升。与基线方法相比,平均绝对误差(MAE)和均方根误差(RMSE)均有所降低,表明该方法能够更准确地识别抑郁症。具体的性能数据和提升幅度在论文中没有明确给出,属于未知信息。
🎯 应用场景
该研究成果可应用于智能心理健康咨询、远程抑郁症筛查、辅助诊断等领域。通过分析患者的语音和行为,可以更准确地识别抑郁症,并为患者提供及时的心理支持和治疗建议。该技术还有潜力应用于其他精神疾病的早期检测和诊断,具有重要的社会价值和临床意义。
📄 摘要(原文)
Depression is a growing concern gaining attention in both public discourse and AI research. While deep neural networks (DNNs) have been used for recognition, they still lack real-world effectiveness. Large language models (LLMs) show strong potential but require domain-specific fine-tuning and struggle with non-textual cues. Since depression is often expressed through vocal tone and behaviour rather than explicit text, relying on language alone is insufficient. Diagnostic accuracy also suffers without incorporating psychological expertise. To address these limitations, we present, to the best of our knowledge, the first application of LLMs to multimodal depression detection using the DAIC-WOZ dataset. We extract the audio features using the pre-trained model Wav2Vec, and mapped it to text-based LLMs for further processing. We also propose a novel strategy for incorporating psychological knowledge into LLMs to enhance diagnostic performance, specifically using a question and answer set to grant authorised knowledge to LLMs. Our approach yields a notable improvement in both Mean Absolute Error (MAE) and Root Mean Square Error (RMSE) compared to a base score proposed by the related original paper. The codes are available at https://github.com/myxp-lyp/Depression-detection.git