Towards Explainable Multimodal Depression Recognition for Clinical Interviews

📄 arXiv: 2501.16106v1 📥 PDF

作者: Wenjie Zheng, Qiming Xie, Zengzhi Wang, Jianfei Yu, Rui Xia

分类: cs.CL

发布日期: 2025-01-27

备注: 21 pages


💡 一句话要点

提出EMDRC任务与PHQ-aware多模态框架,提升临床访谈抑郁识别的可解释性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态抑郁识别 可解释性AI 临床访谈 多任务学习 PHQ-8量表 症状总结 自然语言处理

📋 核心要点

  1. 现有MDRC研究缺乏模型透明度,难以解释决策过程,限制了其在临床上的应用。
  2. 提出EMDRC任务,旨在结构化总结症状并预测抑郁程度,提升模型可解释性。
  3. 构建新数据集,并设计PHQ-aware多模态多任务学习框架,有效提升了EMDRC任务的性能。

📝 摘要(中文)

近年来,临床访谈中的多模态抑郁识别(MDRC)受到了广泛关注。现有的MDRC研究主要集中在提高任务性能上,并取得了显著进展。然而,对于临床应用而言,模型透明度至关重要,而以往的研究忽略了决策过程的可解释性。为了解决这个问题,我们提出了一个可解释的多模态临床访谈抑郁识别(EMDRC)任务,旨在通过总结症状和揭示潜在原因,为抑郁识别提供证据。给定一个访谈者-参与者互动场景,EMDRC的目标是基于八项患者健康问卷抑郁量表(PHQ-8)结构化地总结参与者的症状,并预测他们的抑郁严重程度。为了解决EMDRC任务,我们基于现有的MDRC数据集构建了一个新的数据集。此外,我们利用PHQ-8,提出了一个PHQ-aware多模态多任务学习框架,该框架捕获话语级别的症状相关语义信息,以帮助生成对话级别的摘要。在我们标注的数据集上的实验结果表明,我们提出的方法优于EMDRC任务上的基线系统。

🔬 方法详解

问题定义:现有MDRC方法主要关注性能提升,忽略了模型在临床应用中至关重要的可解释性。医生需要了解模型判断抑郁症的依据,例如具体症状和潜在原因,而现有方法无法提供这些信息。因此,论文旨在解决MDRC任务中缺乏可解释性的问题。

核心思路:论文的核心思路是利用PHQ-8量表,将抑郁症的诊断与具体的症状关联起来。通过让模型学习识别和总结与PHQ-8相关的症状,从而提高模型决策过程的透明度,并为医生提供有用的诊断信息。

技术框架:整体框架是一个多模态多任务学习框架。首先,对访谈对话进行多模态特征提取(文本、语音、视频)。然后,利用PHQ-8量表作为指导,设计多个辅助任务,例如症状识别和症状总结。这些辅助任务与主任务(抑郁程度预测)共同训练,从而使模型能够学习到与抑郁症相关的症状信息。最后,模型输出抑郁程度预测以及症状总结,为医生提供诊断依据。

关键创新:关键创新在于提出了PHQ-aware的多模态多任务学习框架。该框架将PHQ-8量表融入到模型训练中,使得模型能够学习到与抑郁症相关的症状信息,从而提高了模型的可解释性。与现有方法相比,该方法不仅关注性能提升,更关注模型决策过程的透明度。

关键设计:框架的关键设计包括:1) 使用预训练模型(如BERT)提取文本特征;2) 使用语音和视频特征提取器提取语音和视觉特征;3) 设计多个辅助任务,例如症状识别和症状总结,并使用交叉熵损失函数进行训练;4) 使用加权损失函数将主任务和辅助任务的损失结合起来,共同训练模型。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,提出的PHQ-aware多模态多任务学习框架在EMDRC任务上取得了显著的性能提升。与基线系统相比,该方法在抑郁程度预测和症状总结方面均有明显改善,证明了其有效性和优越性。具体性能数据未知,但结论是优于基线。

🎯 应用场景

该研究成果可应用于智能心理健康评估系统,辅助医生进行抑郁症诊断。通过提供可解释的诊断依据,该系统可以提高诊断效率和准确性,并为患者提供个性化的治疗方案。未来,该技术还可扩展到其他精神疾病的诊断和治疗中。

📄 摘要(原文)

Recently, multimodal depression recognition for clinical interviews (MDRC) has recently attracted considerable attention. Existing MDRC studies mainly focus on improving task performance and have achieved significant development. However, for clinical applications, model transparency is critical, and previous works ignore the interpretability of decision-making processes. To address this issue, we propose an Explainable Multimodal Depression Recognition for Clinical Interviews (EMDRC) task, which aims to provide evidence for depression recognition by summarizing symptoms and uncovering underlying causes. Given an interviewer-participant interaction scenario, the goal of EMDRC is to structured summarize participant's symptoms based on the eight-item Patient Health Questionnaire depression scale (PHQ-8), and predict their depression severity. To tackle the EMDRC task, we construct a new dataset based on an existing MDRC dataset. Moreover, we utilize the PHQ-8 and propose a PHQ-aware multimodal multi-task learning framework, which captures the utterance-level symptom-related semantic information to help generate dialogue-level summary. Experiment results on our annotated dataset demonstrate the superiority of our proposed methods over baseline systems on the EMDRC task.