Optimizing Large Language Models for Detecting Symptoms of Comorbid Depression or Anxiety in Chronic Diseases: Insights from Patient Messages
作者: Jiyeong Kim, Stephen P. Ma, Michael L. Chen, Isaac R. Galatzer-Levy, John Torous, Peter J. van Roessel, Christopher Sharp, Michael A. Pfeffer, Carolyn I. Rodriguez, Eleni Linos, Jonathan H. Chen
分类: cs.AI, cs.CL
发布日期: 2025-03-14
💡 一句话要点
优化大型语言模型以检测慢性病患者的共病抑郁或焦虑症状
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 情绪症状检测 慢性病管理 心理健康 机器学习
📋 核心要点
- 慢性病患者(如糖尿病)常伴随抑郁或焦虑症状,现有检测方法面临准确性和及时性不足的挑战。
- 本研究通过优化大型语言模型,结合多种学习策略,旨在提升对患者消息中情绪症状的检测能力。
- 实验结果显示,三种大型语言模型在F-1和准确率上均超过90%,其中Llama 3.1 405B在零样本学习下表现最佳,达93%。
📝 摘要(中文)
糖尿病患者面临共病抑郁或焦虑的风险,增加了管理的复杂性。本研究评估了大型语言模型(LLMs)从安全患者消息中检测这些症状的性能。我们采用了多种方法,包括工程化提示、系统性角色、温度调整以及零样本和少样本学习,以识别最佳模型并提升性能。五个LLMs中有三个表现出色(F-1和准确率均超过90%),其中Llama 3.1 405B在零样本方法下达到了93%的F-1和准确率。尽管LLMs在二分类和处理复杂指标(如患者健康问卷-4)方面表现出潜力,但在挑战性案例中的不一致性需要进一步的现实评估。研究结果强调了LLMs在及时筛查和转诊中的潜力,为改善慢性病患者的心理健康护理提供了宝贵的实证知识。
🔬 方法详解
问题定义:本研究旨在解决糖尿病患者中共病抑郁或焦虑症状检测的准确性和及时性不足的问题。现有方法往往无法有效处理患者的复杂情绪表达,导致漏诊或误诊。
核心思路:论文提出通过优化大型语言模型(LLMs),结合工程化提示和学习策略,提升对患者消息中情绪症状的检测能力。这种设计旨在利用LLMs的强大语言理解能力,增强其在医疗文本分析中的应用。
技术框架:整体架构包括数据收集、模型选择、提示工程、性能评估等多个阶段。首先,收集患者的安全消息数据,然后选择多种LLMs进行比较,接着通过调整提示和学习策略来优化模型,最后评估模型在情绪症状检测中的表现。
关键创新:最重要的技术创新在于结合了零样本和少样本学习策略,显著提升了模型在复杂情境下的表现。这与传统方法的依赖于大量标注数据的方式形成了鲜明对比。
关键设计:在模型训练中,采用了温度调整和系统性角色设计,以优化模型输出的多样性和准确性。同时,使用了患者健康问卷-4等复杂指标来评估模型的实际应用效果。
📊 实验亮点
实验结果显示,三种大型语言模型在F-1和准确率上均超过90%,其中Llama 3.1 405B在零样本学习下表现最佳,达93%。这些结果表明,LLMs在复杂情绪症状检测中具有显著的潜力,能够为患者提供更及时的心理健康支持。
🎯 应用场景
该研究的潜在应用领域包括医疗健康系统中的心理健康筛查和患者管理。通过利用大型语言模型,医疗机构可以实现更高效的情绪症状检测,从而及时进行转诊和干预,改善慢性病患者的整体健康状况。未来,这一技术可能会在更广泛的医疗场景中推广,提升心理健康护理的质量和效率。
📄 摘要(原文)
Patients with diabetes are at increased risk of comorbid depression or anxiety, complicating their management. This study evaluated the performance of large language models (LLMs) in detecting these symptoms from secure patient messages. We applied multiple approaches, including engineered prompts, systemic persona, temperature adjustments, and zero-shot and few-shot learning, to identify the best-performing model and enhance performance. Three out of five LLMs demonstrated excellent performance (over 90% of F-1 and accuracy), with Llama 3.1 405B achieving 93% in both F-1 and accuracy using a zero-shot approach. While LLMs showed promise in binary classification and handling complex metrics like Patient Health Questionnaire-4, inconsistencies in challenging cases warrant further real-life assessment. The findings highlight the potential of LLMs to assist in timely screening and referrals, providing valuable empirical knowledge for real-world triage systems that could improve mental health care for patients with chronic diseases.