Dynamic Summary Generation for Interpretable Multimodal Depression Detection

作者: Shiyu Teng, Jiaqing Liu, Hao Sun, Yu Li, Shurong Chai, Ruibo Hou, Tomoko Tateyama, Lanfen Lin, Yen-Wei Chen

分类: cs.AI

发布日期: 2026-04-13

💡 一句话要点

提出基于大语言模型的多阶段框架，用于可解释的多模态抑郁症检测。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 抑郁症检测 多模态融合 大语言模型 可解释性 临床摘要

📋 核心要点

抑郁症筛查受限于主观评估和偏见，现有方法难以提供可靠的诊断。
论文提出利用大语言模型生成临床摘要，指导多模态融合，实现可解释的抑郁症检测。
实验结果表明，该方法在准确性和可解释性上均优于现有技术，具有显著提升。

📝 摘要（中文）

抑郁症由于社会偏见和主观症状评估，长期以来诊断不足和治疗不足。为了解决这一挑战，我们提出了一种由粗到精的多阶段框架，该框架利用大型语言模型（LLM）进行准确且可解释的检测。该流程执行二元筛选、五类严重程度分类和连续回归。在每个阶段，LLM生成逐渐丰富的临床摘要，这些摘要指导多模态融合模块，该模块集成了文本、音频和视频特征，从而产生具有透明理由的预测。然后，系统将所有摘要整合为简洁、易于理解的评估报告。在E-DAIC和CMDC数据集上的实验表明，在准确性和可解释性方面，该方法均优于最先进的基线。

🔬 方法详解

问题定义：现有抑郁症检测方法依赖主观症状评估，易受偏见影响，且缺乏透明的决策依据，导致诊断不足和治疗不足。论文旨在解决抑郁症检测中准确性和可解释性不足的问题。

核心思路：论文的核心思路是利用大语言模型（LLM）生成临床摘要，这些摘要能够捕捉患者的语言特征，并为后续的多模态融合提供指导。通过逐步生成更丰富的摘要，实现由粗到精的检测，同时提高模型的可解释性。

技术框架：该框架包含三个主要阶段：二元筛选、五类严重程度分类和连续回归。在每个阶段，LLM生成临床摘要，然后将这些摘要与文本、音频和视频特征进行多模态融合。最终，系统将所有摘要整合为一份简洁的评估报告。

关键创新：该方法最重要的创新点在于利用LLM生成临床摘要，并将这些摘要作为多模态融合的指导信息。这种方法不仅提高了检测的准确性，还增强了模型的可解释性，使得决策过程更加透明。

关键设计：具体的技术细节包括：针对不同阶段设计不同的LLM提示语，以生成相应的临床摘要；采用多模态融合模块，将文本、音频和视频特征与LLM生成的摘要进行有效整合；设计损失函数，以优化模型的性能，并平衡准确性和可解释性。

🖼️ 关键图片

📊 实验亮点

在E-DAIC和CMDC数据集上的实验结果表明，该方法在准确性和可解释性方面均优于现有技术。具体而言，该方法在抑郁症检测的准确率上取得了显著提升，同时生成的临床摘要为模型的决策提供了清晰的依据。

🎯 应用场景

该研究成果可应用于心理健康筛查、远程医疗、智能辅助诊断等领域。通过提供准确且可解释的抑郁症检测，有助于提高诊断效率，减少误诊率，并为患者提供个性化的治疗方案。未来，该技术有望推广到其他精神疾病的诊断和治疗中。

📄 摘要（原文）

Depression remains widely underdiagnosed and undertreated because stigma and subjective symptom ratings hinder reliable screening. To address this challenge, we propose a coarse-to-fine, multi-stage framework that leverages large language models (LLMs) for accurate and interpretable detection. The pipeline performs binary screening, five-class severity classification, and continuous regression. At each stage, an LLM produces progressively richer clinical summaries that guide a multimodal fusion module integrating text, audio, and video features, yielding predictions with transparent rationale. The system then consolidates all summaries into a concise, human-readable assessment report. Experiments on the E-DAIC and CMDC datasets show significant improvements over state-of-the-art baselines in both accuracy and interpretability.

Dynamic Summary Generation for Interpretable Multimodal Depression Detection

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理