Synthetic Data Generation with LLM for Improved Depression Prediction

📄 arXiv: 2411.17672v1 📥 PDF

作者: Andrea Kang, Jun Yu Chen, Zoe Lee-Youngzie, Shuhao Fu

分类: cs.LG

发布日期: 2024-11-26

备注: 6 pages excluding references and appendix


💡 一句话要点

利用LLM生成合成数据,提升抑郁症预测模型性能

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 合成数据生成 大型语言模型 抑郁症预测 自然语言处理 心理健康 数据增强 隐私保护

📋 核心要点

  1. 抑郁症检测面临数据隐私和稀缺性挑战,限制了模型的训练和泛化能力。
  2. 利用LLM生成高质量合成数据,平衡数据集分布,解决数据不足和隐私泄露问题。
  3. 实验表明,合成数据有效提升了抑郁症预测模型的性能,并保持了数据统计特性。

📝 摘要(中文)

抑郁症自动检测是心理学和机器学习交叉领域中一个快速发展的研究方向。然而,随着人们对此兴趣的增加,数据隐私和稀缺性问题也日益突出,因为该主题非常敏感。本文提出了一种利用大型语言模型(LLM)生成合成数据的流程,以提高抑郁症预测模型的性能。该流程从临床访谈记录的非结构化自然文本数据开始,利用开源LLM通过思维链提示生成合成数据。该流程包括两个关键步骤:第一步是基于原始文本和抑郁评分生成概要和情感分析,第二步是基于第一步生成的概要和新的抑郁评分生成合成概要/情感分析。合成数据在保真度和隐私保护指标方面表现良好,并且平衡了训练数据集中严重程度的分布,从而显著提高了模型预测患者抑郁程度的能力。通过利用LLM生成合成数据来扩充有限且不平衡的真实世界数据集,我们展示了一种解决自动抑郁症检测中常见的数据稀缺和隐私问题的新方法,同时保持了原始数据集的统计完整性。该方法为未来的心理健康研究和应用提供了一个强大的框架。

🔬 方法详解

问题定义:抑郁症自动检测领域面临数据稀缺和隐私保护的双重挑战。现有的真实数据集往往规模有限,且包含敏感的个人信息,难以直接用于模型训练。这限制了模型的泛化能力,并可能导致隐私泄露风险。

核心思路:利用大型语言模型(LLM)的强大生成能力,生成高质量的合成数据,以扩充现有的真实数据集。通过控制LLM的生成过程,可以平衡数据集的分布,并确保合成数据在统计特性上与真实数据相似,从而提高模型的性能和鲁棒性。

技术框架:该方法包含两个主要阶段。第一阶段,利用LLM对原始临床访谈记录进行概要生成和情感分析,并结合抑郁评分,生成中间表示。第二阶段,基于第一阶段生成的概要和情感分析,以及新的抑郁评分,再次利用LLM生成最终的合成数据。整个流程采用链式思维提示,引导LLM生成更具逻辑性和一致性的数据。

关键创新:该方法的核心创新在于利用LLM生成合成数据,并将其应用于抑郁症预测任务。与传统的合成数据生成方法相比,LLM能够生成更自然、更逼真的文本数据,从而更好地模拟真实世界的临床访谈场景。此外,该方法还通过控制LLM的生成过程,实现了数据集的平衡和隐私保护。

关键设计:在第一阶段,使用开源LLM(具体模型未知)进行概要生成和情感分析。提示工程(prompt engineering)是关键,通过精心设计的提示语,引导LLM生成高质量的概要和情感分析结果。在第二阶段,同样使用LLM生成合成数据,并根据需要调整抑郁评分的分布。具体的损失函数和网络结构信息未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该研究表明,通过LLM生成的合成数据可以有效提升抑郁症预测模型的性能。具体提升幅度未知,但论文强调合成数据平衡了训练数据集中抑郁程度的分布,从而显著提高了模型预测患者抑郁程度的能力。此外,合成数据在保真度和隐私保护指标方面表现良好,表明该方法在解决数据稀缺和隐私问题方面具有潜力。

🎯 应用场景

该研究成果可广泛应用于心理健康领域,例如抑郁症的早期筛查、诊断辅助和治疗效果评估。通过生成合成数据,可以有效解决数据稀缺和隐私保护问题,促进相关研究的开展和应用。此外,该方法还可以推广到其他涉及敏感数据的医疗健康领域,例如精神疾病、药物滥用等。

📄 摘要(原文)

Automatic detection of depression is a rapidly growing field of research at the intersection of psychology and machine learning. However, with its exponential interest comes a growing concern for data privacy and scarcity due to the sensitivity of such a topic. In this paper, we propose a pipeline for Large Language Models (LLMs) to generate synthetic data to improve the performance of depression prediction models. Starting from unstructured, naturalistic text data from recorded transcripts of clinical interviews, we utilize an open-source LLM to generate synthetic data through chain-of-thought prompting. This pipeline involves two key steps: the first step is the generation of the synopsis and sentiment analysis based on the original transcript and depression score, while the second is the generation of the synthetic synopsis/sentiment analysis based on the summaries generated in the first step and a new depression score. Not only was the synthetic data satisfactory in terms of fidelity and privacy-preserving metrics, it also balanced the distribution of severity in the training dataset, thereby significantly enhancing the model's capability in predicting the intensity of the patient's depression. By leveraging LLMs to generate synthetic data that can be augmented to limited and imbalanced real-world datasets, we demonstrate a novel approach to addressing data scarcity and privacy concerns commonly faced in automatic depression detection, all while maintaining the statistical integrity of the original dataset. This approach offers a robust framework for future mental health research and applications.