Enhanced Large Language Models for Effective Screening of Depression and Anxiety

作者: June M. Liu, Mengxia Gao, Sahand Sabour, Zhuang Chen, Minlie Huang, Tatia M. C. Lee

分类: cs.CL

发布日期: 2025-01-15 (更新: 2025-01-26)

💡 一句话要点

EmoScan：利用增强型大语言模型高效筛查抑郁症和焦虑症

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 情绪障碍筛查 大型语言模型 数据合成 心理健康 临床访谈

📋 核心要点

现有LLM在心理健康筛查中面临成本高昂和训练数据伦理问题的挑战。
论文提出EmoScan，通过合成临床访谈数据PsyInterview，提升LLM在情绪障碍筛查中的性能。
实验表明EmoScan在F1-score、BERTScore和泛化能力上均优于基线模型和GPT-4。

📝 摘要（中文）

抑郁症和焦虑症非常普遍，需要及时识别和管理。大型语言模型（LLM）的最新进展提供了潜在的解决方案，但高成本和训练数据的伦理问题仍然是挑战。本文介绍了一个用于合成临床访谈的流程，生成了1,157个交互式对话（PsyInterview），并提出了EmoScan，一个基于LLM的情绪障碍筛查系统。EmoScan区分粗略的（例如，焦虑症或抑郁症）和精细的情绪障碍（例如，重度抑郁症），并进行高质量的访谈。评估表明，EmoScan在情绪障碍筛查方面超过了基础模型和GPT-4等其他LLM（F1-score=0.7467）。它还提供了卓越的解释（BERTScore=0.9408），并表现出强大的泛化能力（在外部数据集上的F1-score为0.67）。此外，EmoScan在访谈技巧方面优于基线，这已通过自动评分和人工评估得到验证。这项工作强调了可扩展的数据生成流程对于开发有效心理健康LLM工具的重要性。

🔬 方法详解

问题定义：现有的大型语言模型在应用于抑郁症和焦虑症等情绪障碍的筛查时，面临着两个主要的痛点。一是训练和部署成本高昂，二是训练数据涉及敏感的个人健康信息，存在伦理风险和隐私问题。因此，如何以较低的成本和更安全的方式，开发出高效的情绪障碍筛查系统是一个亟待解决的问题。

核心思路：论文的核心思路是通过合成临床访谈数据来增强LLM的性能，从而降低对真实临床数据的依赖，并解决数据隐私和成本问题。具体而言，论文构建了一个数据生成流程，用于创建模拟的心理访谈对话，并利用这些合成数据来训练和优化LLM，使其能够更准确地识别和区分不同的情绪障碍。

技术框架：EmoScan系统的整体框架包含以下几个主要模块：1) 数据合成模块：该模块负责生成PsyInterview数据集，包含1157个交互式对话，模拟临床访谈场景。2) 情绪障碍筛查模块：该模块使用LLM（具体模型未知）作为核心，对输入的对话进行分析，判断患者是否存在情绪障碍，并区分粗略和精细的障碍类型。3) 解释生成模块：该模块负责生成对筛查结果的解释，提供模型判断的依据。4) 评估模块：该模块使用自动评分和人工评估相结合的方式，对EmoScan的性能进行全面评估。

关键创新：该论文的关键创新在于提出了一个可扩展的数据生成流程，用于合成临床访谈数据，从而降低了对真实临床数据的依赖。此外，EmoScan系统能够区分粗略和精细的情绪障碍类型，并提供高质量的解释，这在现有的情绪障碍筛查系统中并不常见。

关键设计：论文中关于数据合成流程和LLM的具体架构细节描述不足，关键设计未知。但可以推测，数据合成流程可能涉及使用规则或模板来生成对话，并使用LLM来增强对话的自然度和多样性。LLM的训练可能使用了交叉熵损失函数，并针对情绪障碍筛查任务进行了微调。

📊 实验亮点

EmoScan在情绪障碍筛查方面取得了显著的性能提升，F1-score达到0.7467，超过了基础模型和GPT-4等其他LLM。在解释生成方面，BERTScore达到0.9408，表明EmoScan能够提供高质量的解释。此外，EmoScan在外部数据集上表现出良好的泛化能力，F1-score为0.67，证明了其在不同场景下的适用性。

🎯 应用场景

EmoScan具有广泛的应用前景，可用于在线心理健康咨询、远程医疗、社区心理健康筛查等场景。它可以帮助医疗机构和个人更早地发现潜在的情绪障碍，从而进行及时的干预和治疗。此外，该研究提出的数据生成流程也可以应用于其他医疗领域的LLM开发，促进人工智能在医疗健康领域的应用。

📄 摘要（原文）

Depressive and anxiety disorders are widespread, necessitating timely identification and management. Recent advances in Large Language Models (LLMs) offer potential solutions, yet high costs and ethical concerns about training data remain challenges. This paper introduces a pipeline for synthesizing clinical interviews, resulting in 1,157 interactive dialogues (PsyInterview), and presents EmoScan, an LLM-based emotional disorder screening system. EmoScan distinguishes between coarse (e.g., anxiety or depressive disorders) and fine disorders (e.g., major depressive disorders) and conducts high-quality interviews. Evaluations showed that EmoScan exceeded the performance of base models and other LLMs like GPT-4 in screening emotional disorders (F1-score=0.7467). It also delivers superior explanations (BERTScore=0.9408) and demonstrates robust generalizability (F1-score of 0.67 on an external dataset). Furthermore, EmoScan outperforms baselines in interviewing skills, as validated by automated ratings and human evaluations. This work highlights the importance of scalable data-generative pipelines for developing effective mental health LLM tools.

Enhanced Large Language Models for Effective Screening of Depression and Anxiety

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理