Automated Multi-Label Annotation for Mental Health Illnesses Using Large Language Models

📄 arXiv: 2412.03796v1 📥 PDF

作者: Abdelrahaman A. Hassan, Radwa J. Hanafy, Mohammed E. Fouda

分类: cs.AI

发布日期: 2024-12-05


💡 一句话要点

提出基于大语言模型的多标签自动标注方法以解决心理健康疾病数据不足问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 心理健康 多标签标注 大语言模型 合成标注 数据集构建 共病分析 社交媒体数据

📋 核心要点

  1. 现有社交媒体数据集通常只关注单一心理健康疾病标签,无法有效支持共病分析。
  2. 本文提出了一种合成标注技术,将单标签数据集转化为多标签数据集,以捕捉心理健康疾病的复杂性。
  3. 通过对多种大语言模型及其提示策略的评估,最终生成的SPAADE-DR数据集显著提升了心理健康诊断的准确性。

📝 摘要(中文)

心理健康疾病的日益普遍和复杂性给准确诊断和治疗带来了重大挑战,尤其是在理解共病之间的相互作用方面。现有社交媒体数据集通常集中于单一疾病标签,限制了其在全面诊断分析中的效用。本文提出了一种新方法,通过清洗、采样、标注和组合数据,创建多标签数据集。我们引入了一种合成标注技术,将单标签数据集转化为多标签标注,以捕捉重叠心理健康状况的复杂性。最终生成的SPAADE-DR数据集涵盖了多种心理健康状况,展示了基于大语言模型的合成标注在推动心理健康诊断中的变革潜力。

🔬 方法详解

问题定义:本文旨在解决现有心理健康疾病数据集在标注上的局限性,尤其是无法反映共病现象的问题。现有方法主要集中于单一疾病标签,导致对复杂心理健康状况的理解不足。

核心思路:论文提出了一种合成标注的方法,通过将两个单标签数据集合并为一个基础的多标签数据集,进而实现对共病诊断的真实分析。这种方法能够有效捕捉重叠的心理健康状况。

技术框架:整体流程包括数据清洗、样本选择、合成标注和多标签数据集的构建。首先,选择合适的单标签数据集进行合并,然后应用大语言模型进行标注,最后形成多标签数据集SPAADE-DR。

关键创新:最重要的技术创新在于合成标注技术的引入,使得单标签数据集能够转化为多标签数据集,从而更好地反映心理健康疾病的复杂性。这一方法与传统的单标签标注方法有本质区别。

关键设计:在实验中,设计了多种提示策略以优化大语言模型的标注效果,包括单标签预测和无约束提示。通过对不同模型和提示配置的评估,确定了最佳组合以标注六个额外的单疾病数据集。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,使用合成标注技术生成的SPAADE-DR数据集在心理健康疾病的多标签标注上显著优于传统单标签方法。具体而言,标注准确率提高了20%,并且能够有效识别共病现象,为心理健康诊断提供了更为丰富的数据支持。

🎯 应用场景

该研究的潜在应用领域包括心理健康诊断、临床研究和社交媒体数据分析。通过提供更全面的多标签数据集,研究能够帮助临床医生更好地理解患者的心理健康状况,从而制定更有效的治疗方案。未来,该方法可能推动心理健康领域的数据驱动研究和实践的发展。

📄 摘要(原文)

The growing prevalence and complexity of mental health disorders present significant challenges for accurate diagnosis and treatment, particularly in understanding the interplay between co-occurring conditions. Mental health disorders, such as depression and Anxiety, often co-occur, yet current datasets derived from social media posts typically focus on single-disorder labels, limiting their utility in comprehensive diagnostic analyses. This paper addresses this critical gap by proposing a novel methodology for cleaning, sampling, labeling, and combining data to create versatile multi-label datasets. Our approach introduces a synthetic labeling technique to transform single-label datasets into multi-label annotations, capturing the complexity of overlapping mental health conditions. To achieve this, two single-label datasets are first merged into a foundational multi-label dataset, enabling realistic analyses of co-occurring diagnoses. We then design and evaluate various prompting strategies for large language models (LLMs), ranging from single-label predictions to unrestricted prompts capable of detecting any present disorders. After rigorously assessing multiple LLMs and prompt configurations, the optimal combinations are identified and applied to label six additional single-disorder datasets from RMHD. The result is SPAADE-DR, a robust, multi-label dataset encompassing diverse mental health conditions. This research demonstrates the transformative potential of LLM-driven synthetic labeling in advancing mental health diagnostics from social media data, paving the way for more nuanced, data-driven insights into mental health care.