Integrating Large Language Models into a Tri-Modal Architecture for Automated Depression Classification on the DAIC-WOZ

作者: Santosh V. Patapati

分类: cs.CV, cs.AI, cs.LG, cs.MM

发布日期: 2024-07-27 (更新: 2024-10-11)

备注: Keywords: Multi-Modal Neural Networks, Deep Learning, Large Language Models, Depression Diagnosis, Biomedical Informatics, DAIC-WOZ

💡 一句话要点

提出融合LLM的三模态BiLSTM架构，用于DAIC-WOZ抑郁症自动分类。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 抑郁症分类 多模态融合 大型语言模型 BiLSTM 临床访谈

📋 核心要点

抑郁症影响全球3亿人，现有方法在利用临床访谈记录进行自动分类时，对多模态信息的有效融合仍存在挑战。
本研究提出一种三模态融合架构，结合MFCC、FAU和GPT-4处理的文本数据，旨在更全面地捕捉抑郁症患者的特征。
实验结果表明，该方法在DAIC-WOZ数据集上超越了现有基线和SOTA模型，在留一法测试中准确率达到91.01%。

📝 摘要（中文）

本研究提出了一种新颖的、基于BiLSTM的三模态模型级融合架构，用于从临床访谈记录中进行抑郁症的二元分类。该架构融合了梅尔频率倒谱系数（MFCC）、面部动作单元（FAU），并利用基于少样本学习的GPT-4模型处理文本数据。这是首次将大型语言模型整合到多模态架构中用于此任务。在DAIC-WOZ AVEC 2016挑战赛的交叉验证和留一法交叉验证中，该方法取得了令人印象深刻的结果，超越了所有基线模型和多个最先进的模型。在留一法测试中，该方法实现了91.01%的准确率，85.95%的F1分数，80%的精确率和92.86%的召回率。

🔬 方法详解

问题定义：本论文旨在解决抑郁症的自动分类问题，利用临床访谈记录作为输入。现有方法在处理多模态数据（音频、视频、文本）时，通常采用简单的特征拼接或浅层融合，无法充分挖掘不同模态之间的关联性和互补性，导致分类精度受限。

核心思路：论文的核心思路是将大型语言模型（LLM）融入到多模态融合框架中，利用LLM强大的文本理解能力，提取更丰富的文本特征。同时，结合音频和视频模态的信息，通过模型层面的融合，实现更准确的抑郁症分类。这样设计的目的是为了充分利用不同模态的优势，弥补单一模态的不足。

技术框架：整体架构是一个三模态融合的BiLSTM网络。首先，对音频数据提取MFCC特征，对视频数据提取面部动作单元（FAU）特征，对文本数据使用基于少样本学习的GPT-4模型进行处理。然后，将三种模态的特征分别输入到BiLSTM网络中进行学习。最后，将三个BiLSTM网络的输出进行融合，通过全连接层进行二元分类。

关键创新：最重要的技术创新点是将大型语言模型（GPT-4）引入到多模态抑郁症分类任务中。以往的研究通常使用传统的文本特征提取方法，如词袋模型或TF-IDF，无法充分利用文本中的语义信息。通过使用GPT-4，可以提取更丰富的文本特征，从而提高分类精度。此外，模型层面的融合方式也优于传统的特征拼接方式，能够更好地捕捉不同模态之间的关联性。

关键设计：GPT-4采用two-shot learning的方式进行微调，以适应抑郁症分类任务。BiLSTM网络的隐藏层大小设置为128。融合方式采用简单的加权平均。损失函数采用二元交叉熵损失函数。实验中，使用了DAIC-WOZ AVEC 2016 Challenge数据集，并采用了交叉验证和留一法交叉验证两种评估方式。

🖼️ 关键图片

📊 实验亮点

该模型在DAIC-WOZ数据集上取得了显著的性能提升。在留一法测试中，该方法实现了91.01%的准确率，85.95%的F1分数，80%的精确率和92.86%的召回率。相较于基线模型和现有SOTA模型，各项指标均有明显提升，证明了该方法的有效性。

🎯 应用场景

该研究成果可应用于心理健康领域的辅助诊断，帮助医生更准确地识别抑郁症患者。通过分析患者的访谈记录，可以客观地评估其心理状态，为临床决策提供参考。未来，该技术有望扩展到其他精神疾病的诊断和治疗，并应用于在线心理咨询平台，提供更便捷的心理健康服务。

📄 摘要（原文）

Major Depressive Disorder (MDD) is a pervasive mental health condition that affects 300 million people worldwide. This work presents a novel, BiLSTM-based tri-modal model-level fusion architecture for the binary classification of depression from clinical interview recordings. The proposed architecture incorporates Mel Frequency Cepstral Coefficients, Facial Action Units, and uses a two-shot learning based GPT-4 model to process text data. This is the first work to incorporate large language models into a multi-modal architecture for this task. It achieves impressive results on the DAIC-WOZ AVEC 2016 Challenge cross-validation split and Leave-One-Subject-Out cross-validation split, surpassing all baseline models and multiple state-of-the-art models. In Leave-One-Subject-Out testing, it achieves an accuracy of 91.01%, an F1-Score of 85.95%, a precision of 80%, and a recall of 92.86%.

Integrating Large Language Models into a Tri-Modal Architecture for Automated Depression Classification on the DAIC-WOZ

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理