Dynamic Summary Generation for Interpretable Multimodal Depression Detection

📄 arXiv: 2604.11334v1 📥 PDF

作者: Shiyu Teng, Jiaqing Liu, Hao Sun, Yu Li, Shurong Chai, Ruibo Hou, Tomoko Tateyama, Lanfen Lin, Yen-Wei Chen

分类: cs.AI

发布日期: 2026-04-13


💡 一句话要点

提出基于大语言模型的多阶段框架,用于可解释的多模态抑郁症检测。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 抑郁症检测 多模态融合 大语言模型 可解释性 临床摘要

📋 核心要点

  1. 抑郁症筛查受限于主观评估和偏见,现有方法难以提供可靠的诊断。
  2. 论文提出利用大语言模型生成临床摘要,指导多模态融合,实现可解释的抑郁症检测。
  3. 实验结果表明,该方法在准确性和可解释性上均优于现有技术,具有显著提升。

📝 摘要(中文)

抑郁症由于社会偏见和主观症状评估,长期以来诊断不足和治疗不足。为了解决这一挑战,我们提出了一种由粗到精的多阶段框架,该框架利用大型语言模型(LLM)进行准确且可解释的检测。该流程执行二元筛选、五类严重程度分类和连续回归。在每个阶段,LLM生成逐渐丰富的临床摘要,这些摘要指导多模态融合模块,该模块集成了文本、音频和视频特征,从而产生具有透明理由的预测。然后,系统将所有摘要整合为简洁、易于理解的评估报告。在E-DAIC和CMDC数据集上的实验表明,在准确性和可解释性方面,该方法均优于最先进的基线。

🔬 方法详解

问题定义:现有抑郁症检测方法依赖主观症状评估,易受偏见影响,且缺乏透明的决策依据,导致诊断不足和治疗不足。论文旨在解决抑郁症检测中准确性和可解释性不足的问题。

核心思路:论文的核心思路是利用大语言模型(LLM)生成临床摘要,这些摘要能够捕捉患者的语言特征,并为后续的多模态融合提供指导。通过逐步生成更丰富的摘要,实现由粗到精的检测,同时提高模型的可解释性。

技术框架:该框架包含三个主要阶段:二元筛选、五类严重程度分类和连续回归。在每个阶段,LLM生成临床摘要,然后将这些摘要与文本、音频和视频特征进行多模态融合。最终,系统将所有摘要整合为一份简洁的评估报告。

关键创新:该方法最重要的创新点在于利用LLM生成临床摘要,并将这些摘要作为多模态融合的指导信息。这种方法不仅提高了检测的准确性,还增强了模型的可解释性,使得决策过程更加透明。

关键设计:具体的技术细节包括:针对不同阶段设计不同的LLM提示语,以生成相应的临床摘要;采用多模态融合模块,将文本、音频和视频特征与LLM生成的摘要进行有效整合;设计损失函数,以优化模型的性能,并平衡准确性和可解释性。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

在E-DAIC和CMDC数据集上的实验结果表明,该方法在准确性和可解释性方面均优于现有技术。具体而言,该方法在抑郁症检测的准确率上取得了显著提升,同时生成的临床摘要为模型的决策提供了清晰的依据。

🎯 应用场景

该研究成果可应用于心理健康筛查、远程医疗、智能辅助诊断等领域。通过提供准确且可解释的抑郁症检测,有助于提高诊断效率,减少误诊率,并为患者提供个性化的治疗方案。未来,该技术有望推广到其他精神疾病的诊断和治疗中。

📄 摘要(原文)

Depression remains widely underdiagnosed and undertreated because stigma and subjective symptom ratings hinder reliable screening. To address this challenge, we propose a coarse-to-fine, multi-stage framework that leverages large language models (LLMs) for accurate and interpretable detection. The pipeline performs binary screening, five-class severity classification, and continuous regression. At each stage, an LLM produces progressively richer clinical summaries that guide a multimodal fusion module integrating text, audio, and video features, yielding predictions with transparent rationale. The system then consolidates all summaries into a concise, human-readable assessment report. Experiments on the E-DAIC and CMDC datasets show significant improvements over state-of-the-art baselines in both accuracy and interpretability.