Dynamic Summary Generation for Interpretable Multimodal Depression Detection
作者: Shiyu Teng, Jiaqing Liu, Hao Sun, Yu Li, Shurong Chai, Ruibo Hou, Tomoko Tateyama, Lanfen Lin, Yen-Wei Chen
分类: cs.AI
发布日期: 2026-04-13
💡 一句话要点
提出基于大语言模型的多阶段框架,用于可解释的多模态抑郁症检测。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 抑郁症检测 多模态融合 大语言模型 可解释性 临床摘要
📋 核心要点
- 抑郁症筛查受限于主观评估和偏见,现有方法难以提供可靠的诊断。
- 论文提出利用大语言模型生成临床摘要,指导多模态融合,实现可解释的抑郁症检测。
- 实验结果表明,该方法在准确性和可解释性上均优于现有技术,具有显著提升。
📝 摘要(中文)
抑郁症由于社会偏见和主观症状评估,长期以来诊断不足和治疗不足。为了解决这一挑战,我们提出了一种由粗到精的多阶段框架,该框架利用大型语言模型(LLM)进行准确且可解释的检测。该流程执行二元筛选、五类严重程度分类和连续回归。在每个阶段,LLM生成逐渐丰富的临床摘要,这些摘要指导多模态融合模块,该模块集成了文本、音频和视频特征,从而产生具有透明理由的预测。然后,系统将所有摘要整合为简洁、易于理解的评估报告。在E-DAIC和CMDC数据集上的实验表明,在准确性和可解释性方面,该方法均优于最先进的基线。
🔬 方法详解
问题定义:现有抑郁症检测方法依赖主观症状评估,易受偏见影响,且缺乏透明的决策依据,导致诊断不足和治疗不足。论文旨在解决抑郁症检测中准确性和可解释性不足的问题。
核心思路:论文的核心思路是利用大语言模型(LLM)生成临床摘要,这些摘要能够捕捉患者的语言特征,并为后续的多模态融合提供指导。通过逐步生成更丰富的摘要,实现由粗到精的检测,同时提高模型的可解释性。
技术框架:该框架包含三个主要阶段:二元筛选、五类严重程度分类和连续回归。在每个阶段,LLM生成临床摘要,然后将这些摘要与文本、音频和视频特征进行多模态融合。最终,系统将所有摘要整合为一份简洁的评估报告。
关键创新:该方法最重要的创新点在于利用LLM生成临床摘要,并将这些摘要作为多模态融合的指导信息。这种方法不仅提高了检测的准确性,还增强了模型的可解释性,使得决策过程更加透明。
关键设计:具体的技术细节包括:针对不同阶段设计不同的LLM提示语,以生成相应的临床摘要;采用多模态融合模块,将文本、音频和视频特征与LLM生成的摘要进行有效整合;设计损失函数,以优化模型的性能,并平衡准确性和可解释性。
🖼️ 关键图片
📊 实验亮点
在E-DAIC和CMDC数据集上的实验结果表明,该方法在准确性和可解释性方面均优于现有技术。具体而言,该方法在抑郁症检测的准确率上取得了显著提升,同时生成的临床摘要为模型的决策提供了清晰的依据。
🎯 应用场景
该研究成果可应用于心理健康筛查、远程医疗、智能辅助诊断等领域。通过提供准确且可解释的抑郁症检测,有助于提高诊断效率,减少误诊率,并为患者提供个性化的治疗方案。未来,该技术有望推广到其他精神疾病的诊断和治疗中。
📄 摘要(原文)
Depression remains widely underdiagnosed and undertreated because stigma and subjective symptom ratings hinder reliable screening. To address this challenge, we propose a coarse-to-fine, multi-stage framework that leverages large language models (LLMs) for accurate and interpretable detection. The pipeline performs binary screening, five-class severity classification, and continuous regression. At each stage, an LLM produces progressively richer clinical summaries that guide a multimodal fusion module integrating text, audio, and video features, yielding predictions with transparent rationale. The system then consolidates all summaries into a concise, human-readable assessment report. Experiments on the E-DAIC and CMDC datasets show significant improvements over state-of-the-art baselines in both accuracy and interpretability.