Systematic Evaluation of Machine-Generated Reasoning and PHQ-9 Labeling for Depression Detection Using Large Language Models

📄 arXiv: 2505.17119v1 📥 PDF

作者: Zongru Shao, Xin Wang, Zhanyang Liu, Chenhan Wang, K. P. Subbalakshmi

分类: cs.CL, cs.LG

发布日期: 2025-05-21

备注: 8 pages without references


💡 一句话要点

系统性评估LLM推理能力与PHQ-9标注在抑郁症检测中的应用,并提出优化策略。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 抑郁症检测 推理评估 PHQ-9标注 少样本学习 思维链提示 直接偏好优化 心理健康

📋 核心要点

  1. 现有研究利用LLM进行抑郁症等心理健康问题的早期检测,但其检测能力可能存在未知弱点,且缺乏有效的质量控制。
  2. 本研究通过设计LLM指令策略、对比提示和人工标注,系统性评估LLM在抑郁症检测中的推理能力,并识别潜在偏差。
  3. 实验表明,LLM在显性抑郁语言检测中表现更佳,而DPO优化方法能显著提升性能并减少统计偏差。

📝 摘要(中文)

本研究旨在系统性评估大型语言模型(LLM)在抑郁症早期检测中的推理能力,尤其是在使用机器生成数据进行优化的情况下。研究揭示了现有检测方法可能存在的未知弱点,并指出当前对生成语料库的质量控制不足。为此,研究首先对机器生成的检测和解释进行系统性推理评估,然后利用模型的推理能力探索增强性能的缓解策略。具体包括:设计LLM指令策略以系统分析检测过程;设计对比性的少样本和思维链提示;对子任务进行人工标注并评估性能;从少样本生成中识别出具有理想逻辑推理的人工偏好检测,并用于探索不同的优化策略。在DepTweet数据集上的广泛比较表明,LLM在分析和检测显性抑郁语言方面表现出更高的准确性,而对隐性表达的检测能力较弱。研究采用监督微调(SFT)和直接偏好优化(DPO)两种优化方法来提高性能并减少统计偏差,其中DPO方法取得了显著的性能提升。

🔬 方法详解

问题定义:现有基于LLM的抑郁症检测方法,尤其是在使用机器生成数据进行训练时,可能存在未知的弱点和偏差。此外,对机器生成数据的质量控制不足,可能导致模型学习到错误的模式。因此,需要系统性地评估LLM的推理能力,并探索缓解这些问题的方法。

核心思路:本研究的核心思路是将抑郁症检测任务分解为多个子任务,包括识别说话者是否描述自己的抑郁症、准确检测PHQ-9症状的存在以及最终检测抑郁症。通过对每个子任务进行评估,可以更清晰地了解LLM的优势和劣势。此外,利用模型的推理能力,通过设计合适的提示和优化策略,可以提高检测性能并减少偏差。

技术框架:研究的技术框架主要包括以下几个阶段:1. 设计LLM指令策略,将抑郁症检测任务分解为多个子任务。2. 设计对比性的少样本和思维链提示,选择典型的正负样本进行推理。3. 对子任务进行人工标注,并评估LLM的性能。4. 从少样本生成中识别出具有理想逻辑推理的人工偏好检测,并用于探索不同的优化策略,包括监督微调(SFT)和直接偏好优化(DPO)。

关键创新:本研究的关键创新在于对LLM在抑郁症检测中的推理能力进行了系统性的评估,并揭示了其在处理显性和隐性抑郁语言方面的差异。此外,通过引入人工标注和偏好学习,可以更有效地优化LLM的性能,并减少统计偏差。与现有方法相比,本研究更加注重对模型推理过程的理解和控制。

关键设计:在提示设计方面,研究采用了少样本学习和思维链提示,以引导LLM进行更有效的推理。在优化策略方面,研究比较了监督微调(SFT)和直接偏好优化(DPO)两种方法。DPO方法通过直接优化模型的偏好,可以更有效地提高性能。具体的参数设置和损失函数等技术细节在论文中进行了详细描述(未知)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,LLM在分析和检测显性抑郁语言方面表现出更高的准确性,而对隐性表达的检测能力较弱。通过使用直接偏好优化(DPO)方法,可以显著提高LLM在抑郁症检测中的性能,并减少统计偏差。具体的性能提升幅度在论文中进行了详细描述(未知)。

🎯 应用场景

该研究成果可应用于开发更准确、可靠的心理健康早期筛查工具,帮助医生和患者更早地发现和治疗抑郁症。通过优化LLM的推理能力,可以提高检测的准确性和效率,从而降低医疗成本,改善患者的生活质量。未来,该方法还可以扩展到其他心理健康问题的检测和诊断。

📄 摘要(原文)

Recent research leverages large language models (LLMs) for early mental health detection, such as depression, often optimized with machine-generated data. However, their detection may be subject to unknown weaknesses. Meanwhile, quality control has not been applied to these generated corpora besides limited human verifications. Our goal is to systematically evaluate LLM reasoning and reveal potential weaknesses. To this end, we first provide a systematic evaluation of the reasoning over machine-generated detection and interpretation. Then we use the models' reasoning abilities to explore mitigation strategies for enhanced performance. Specifically, we do the following: A. Design an LLM instruction strategy that allows for systematic analysis of the detection by breaking down the task into several subtasks. B. Design contrastive few-shot and chain-of-thought prompts by selecting typical positive and negative examples of detection reasoning. C. Perform human annotation for the subtasks identified in the first step and evaluate the performance. D. Identify human-preferred detection with desired logical reasoning from the few-shot generation and use them to explore different optimization strategies. We conducted extensive comparisons on the DepTweet dataset across the following subtasks: 1. identifying whether the speaker is describing their own depression; 2. accurately detecting the presence of PHQ-9 symptoms, and 3. finally, detecting depression. Human verification of statistical outliers shows that LLMs demonstrate greater accuracy in analyzing and detecting explicit language of depression as opposed to implicit expressions of depression. Two optimization methods are used for performance enhancement and reduction of the statistic bias: supervised fine-tuning (SFT) and direct preference optimization (DPO). Notably, the DPO approach achieves significant performance improvement.