Leveraging Large Language Models for Cost-Effective, Multilingual Depression Detection and Severity Assessment

作者: Longdi Xian, Jianzhang Ni, Mingzhu Wang

分类: cs.CL, cs.LG

发布日期: 2025-04-07

💡 一句话要点

利用大型语言模型进行高性价比、多语种的抑郁症检测与严重程度评估

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 抑郁症检测 严重程度评估 DeepSeek V3 零样本学习

📋 核心要点

抑郁症早期检测困难，现有方法依赖主观评估，效率和成本有待提高。
利用大型语言模型，特别是DeepSeek V3，进行抑郁症检测和严重程度评估。
DeepSeek V3在零样本和少样本场景下表现出色，但在严重程度评估方面仍需改进。

📝 摘要（中文）

抑郁症是一种常见的精神健康障碍，由于症状评估的主观性，早期检测较为困难。近年来，大型语言模型（LLM）的进步为实现这一目标提供了高效且经济的方法。本研究评估了四种LLM在抑郁症检测中的性能，使用了临床访谈数据。我们选择了表现最佳的模型，并进一步测试了其在严重程度评估和知识增强场景中的表现。通过包含来自六种不同精神障碍的51074条陈述的数据集，评估了模型在复杂诊断场景中的鲁棒性。结果表明，DeepSeek V3是抑郁症检测中最可靠且最具成本效益的模型，在零样本和少样本场景中均表现良好，其中零样本是最有效的选择。严重程度评估与人类评估者的一致性较低，尤其是在轻度抑郁症方面。该模型在复杂诊断场景中检测抑郁症时保持了稳定较高的AUC。这些发现突出了DeepSeek V3在基于文本的抑郁症检测在实际临床应用中的强大潜力。然而，也强调了需要进一步改进严重程度评估和减轻潜在偏差，以提高临床可靠性。

🔬 方法详解

问题定义：该论文旨在解决抑郁症早期检测困难的问题，现有方法依赖主观症状评估，效率低且成本高。此外，现有方法在多语种环境下的适用性也存在挑战。因此，需要一种更客观、高效、经济且具有多语种适应性的抑郁症检测方法。

核心思路：论文的核心思路是利用大型语言模型（LLM）强大的文本理解和生成能力，直接从临床访谈数据中识别抑郁症，并评估其严重程度。通过选择合适的LLM，并进行适当的训练和评估，可以实现高性价比、多语种的抑郁症检测。

技术框架：整体框架包括数据收集与预处理、模型选择与训练、性能评估和鲁棒性测试四个主要阶段。首先，收集临床访谈数据，并进行必要的预处理，如文本清洗和格式转换。然后，选择合适的LLM（如DeepSeek V3），并使用临床数据进行训练或微调。接着，使用标准指标（如AUC）评估模型在抑郁症检测和严重程度评估方面的性能。最后，使用包含多种精神障碍的数据集测试模型在复杂诊断场景中的鲁棒性。

关键创新：该论文的关键创新在于探索了大型语言模型在抑郁症检测和严重程度评估中的应用潜力，并验证了DeepSeek V3在零样本和少样本场景下的有效性。此外，该研究还评估了模型在复杂诊断场景中的鲁棒性，为LLM在精神健康领域的实际应用提供了有价值的参考。

关键设计：论文的关键设计包括：1) 选择DeepSeek V3作为主要模型，因为它在成本效益和性能之间取得了较好的平衡；2) 采用零样本和少样本学习策略，以减少对大量标注数据的依赖；3) 使用AUC作为主要评估指标，以衡量模型在抑郁症检测中的区分能力；4) 使用包含多种精神障碍的数据集进行鲁棒性测试，以评估模型在复杂临床环境中的适用性。

📊 实验亮点

实验结果表明，DeepSeek V3在抑郁症检测中表现出色，尤其是在零样本场景下，具有较高的AUC值。在复杂诊断场景中，DeepSeek V3依然保持了较高的AUC，显示出良好的鲁棒性。然而，在抑郁症严重程度评估方面，模型与人类评估者的一致性较低，尤其是在轻度抑郁症的判断上，表明仍有提升空间。

🎯 应用场景

该研究成果可应用于在线心理健康咨询平台、智能辅助诊断系统和大规模心理健康筛查项目。通过自动分析患者的文本描述，可以辅助医生进行抑郁症的早期诊断和严重程度评估，提高诊断效率和准确性，尤其是在资源匮乏的地区具有重要意义。未来，结合多模态数据（如语音、图像），有望进一步提升诊断的可靠性。

📄 摘要（原文）

Depression is a prevalent mental health disorder that is difficult to detect early due to subjective symptom assessments. Recent advancements in large language models have offered efficient and cost-effective approaches for this objective. In this study, we evaluated the performance of four LLMs in depression detection using clinical interview data. We selected the best performing model and further tested it in the severity evaluation scenario and knowledge enhanced scenario. The robustness was evaluated in complex diagnostic scenarios using a dataset comprising 51074 statements from six different mental disorders. We found that DeepSeek V3 is the most reliable and cost-effective model for depression detection, performing well in both zero-shot and few-shot scenarios, with zero-shot being the most efficient choice. The evaluation of severity showed low agreement with the human evaluator, particularly for mild depression. The model maintains stably high AUCs for detecting depression in complex diagnostic scenarios. These findings highlight DeepSeek V3s strong potential for text-based depression detection in real-world clinical applications. However, they also underscore the need for further refinement in severity assessment and the mitigation of potential biases to enhance clinical reliability.

Leveraging Large Language Models for Cost-Effective, Multilingual Depression Detection and Severity Assessment

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理