Integrating Large Language Models into a Tri-Modal Architecture for Automated Depression Classification on the DAIC-WOZ

📄 arXiv: 2407.19340v5 📥 PDF

作者: Santosh V. Patapati

分类: cs.CV, cs.AI, cs.LG, cs.MM

发布日期: 2024-07-27 (更新: 2024-10-11)

备注: Keywords: Multi-Modal Neural Networks, Deep Learning, Large Language Models, Depression Diagnosis, Biomedical Informatics, DAIC-WOZ


💡 一句话要点

提出融合LLM的三模态BiLSTM架构,用于DAIC-WOZ抑郁症自动分类。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 抑郁症分类 多模态融合 大型语言模型 BiLSTM 临床访谈

📋 核心要点

  1. 抑郁症影响全球3亿人,现有方法在利用临床访谈记录进行自动分类时,对多模态信息的有效融合仍存在挑战。
  2. 本研究提出一种三模态融合架构,结合MFCC、FAU和GPT-4处理的文本数据,旨在更全面地捕捉抑郁症患者的特征。
  3. 实验结果表明,该方法在DAIC-WOZ数据集上超越了现有基线和SOTA模型,在留一法测试中准确率达到91.01%。

📝 摘要(中文)

本研究提出了一种新颖的、基于BiLSTM的三模态模型级融合架构,用于从临床访谈记录中进行抑郁症的二元分类。该架构融合了梅尔频率倒谱系数(MFCC)、面部动作单元(FAU),并利用基于少样本学习的GPT-4模型处理文本数据。这是首次将大型语言模型整合到多模态架构中用于此任务。在DAIC-WOZ AVEC 2016挑战赛的交叉验证和留一法交叉验证中,该方法取得了令人印象深刻的结果,超越了所有基线模型和多个最先进的模型。在留一法测试中,该方法实现了91.01%的准确率,85.95%的F1分数,80%的精确率和92.86%的召回率。

🔬 方法详解

问题定义:本论文旨在解决抑郁症的自动分类问题,利用临床访谈记录作为输入。现有方法在处理多模态数据(音频、视频、文本)时,通常采用简单的特征拼接或浅层融合,无法充分挖掘不同模态之间的关联性和互补性,导致分类精度受限。

核心思路:论文的核心思路是将大型语言模型(LLM)融入到多模态融合框架中,利用LLM强大的文本理解能力,提取更丰富的文本特征。同时,结合音频和视频模态的信息,通过模型层面的融合,实现更准确的抑郁症分类。这样设计的目的是为了充分利用不同模态的优势,弥补单一模态的不足。

技术框架:整体架构是一个三模态融合的BiLSTM网络。首先,对音频数据提取MFCC特征,对视频数据提取面部动作单元(FAU)特征,对文本数据使用基于少样本学习的GPT-4模型进行处理。然后,将三种模态的特征分别输入到BiLSTM网络中进行学习。最后,将三个BiLSTM网络的输出进行融合,通过全连接层进行二元分类。

关键创新:最重要的技术创新点是将大型语言模型(GPT-4)引入到多模态抑郁症分类任务中。以往的研究通常使用传统的文本特征提取方法,如词袋模型或TF-IDF,无法充分利用文本中的语义信息。通过使用GPT-4,可以提取更丰富的文本特征,从而提高分类精度。此外,模型层面的融合方式也优于传统的特征拼接方式,能够更好地捕捉不同模态之间的关联性。

关键设计:GPT-4采用two-shot learning的方式进行微调,以适应抑郁症分类任务。BiLSTM网络的隐藏层大小设置为128。融合方式采用简单的加权平均。损失函数采用二元交叉熵损失函数。实验中,使用了DAIC-WOZ AVEC 2016 Challenge数据集,并采用了交叉验证和留一法交叉验证两种评估方式。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该模型在DAIC-WOZ数据集上取得了显著的性能提升。在留一法测试中,该方法实现了91.01%的准确率,85.95%的F1分数,80%的精确率和92.86%的召回率。相较于基线模型和现有SOTA模型,各项指标均有明显提升,证明了该方法的有效性。

🎯 应用场景

该研究成果可应用于心理健康领域的辅助诊断,帮助医生更准确地识别抑郁症患者。通过分析患者的访谈记录,可以客观地评估其心理状态,为临床决策提供参考。未来,该技术有望扩展到其他精神疾病的诊断和治疗,并应用于在线心理咨询平台,提供更便捷的心理健康服务。

📄 摘要(原文)

Major Depressive Disorder (MDD) is a pervasive mental health condition that affects 300 million people worldwide. This work presents a novel, BiLSTM-based tri-modal model-level fusion architecture for the binary classification of depression from clinical interview recordings. The proposed architecture incorporates Mel Frequency Cepstral Coefficients, Facial Action Units, and uses a two-shot learning based GPT-4 model to process text data. This is the first work to incorporate large language models into a multi-modal architecture for this task. It achieves impressive results on the DAIC-WOZ AVEC 2016 Challenge cross-validation split and Leave-One-Subject-Out cross-validation split, surpassing all baseline models and multiple state-of-the-art models. In Leave-One-Subject-Out testing, it achieves an accuracy of 91.01%, an F1-Score of 85.95%, a precision of 80%, and a recall of 92.86%.