CNSocialDepress: A Chinese Social Media Dataset for Depression Risk Detection and Structured Analysis

📄 arXiv: 2510.11233v1 📥 PDF

作者: Jinyuan Xu, Tian Lan, Xintao Yu, Xue He, Hezhi Zhang, Ying Wang, Pierre Magistry, Mathieu Valette, Lei Li

分类: cs.CL

发布日期: 2025-10-13


💡 一句话要点

发布CNSocialDepress中文社交媒体抑郁风险检测数据集,支持结构化分析。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 抑郁风险检测 中文社交媒体 数据集 心理健康 自然语言处理

📋 核心要点

  1. 现有中文抑郁风险检测资源匮乏,且多为二元分类,无法进行细粒度分析。
  2. 构建包含二元风险标签和结构化心理属性的CNSocialDepress数据集,实现可解释的抑郁信号分析。
  3. 实验验证了数据集在心理剖析和抑郁检测大模型微调中的有效性,具有实际应用价值。

📝 摘要(中文)

抑郁症是一个紧迫的全球公共健康问题,但公开可用的中文抑郁风险检测资源仍然稀缺,并且大多仅限于二元分类。为了解决这一限制,我们发布了CNSocialDepress,这是一个用于中文社交媒体帖子抑郁风险检测的基准数据集。该数据集包含来自233位用户的44,178条文本,其中心理学专家标注了10,306个与抑郁相关的片段。CNSocialDepress提供二元风险标签以及结构化的多维度心理属性,从而能够对抑郁信号进行可解释和细粒度的分析。实验结果表明,它在各种NLP任务中都具有实用性,包括结构化心理剖析和用于抑郁症检测的大型语言模型微调。全面的评估突出了该数据集在抑郁风险识别和心理分析方面的有效性和实际价值,从而为针对中文人群的心理健康应用程序提供了见解。

🔬 方法详解

问题定义:现有中文抑郁风险检测数据集的不足在于数据量小,标注信息单一,大多只提供二元分类标签,无法支持对用户心理状态的深入理解和细粒度分析。这限制了相关算法的性能和可解释性,难以应用于实际的心理健康干预。

核心思路:本研究的核心思路是构建一个高质量、大规模的中文社交媒体抑郁风险数据集,不仅提供二元风险标签,还标注了结构化的多维度心理属性。通过这种方式,可以为抑郁风险检测模型提供更丰富的信息,从而提高模型的准确性和可解释性,并支持更深入的心理分析。

技术框架:该研究主要包括以下几个阶段:1) 数据收集:从中文社交媒体平台收集用户发布的文本数据。2) 数据标注:邀请心理学专家对文本数据进行标注,包括二元风险标签和结构化的多维度心理属性。3) 数据集构建:将标注后的数据整理成CNSocialDepress数据集。4) 实验验证:在CNSocialDepress数据集上进行一系列实验,包括结构化心理剖析和大型语言模型微调,以验证数据集的有效性。

关键创新:该研究的关键创新在于构建了一个包含结构化多维度心理属性的中文社交媒体抑郁风险数据集。与现有的数据集相比,CNSocialDepress提供了更丰富的信息,可以支持更深入的心理分析和更有效的抑郁风险检测。

关键设计:数据集包含44,178条文本,来自233位用户,其中10,306个片段由心理学专家标注为与抑郁相关。标注的心理属性包括情绪、认知、行为等多个维度。研究者还使用了多种NLP模型进行实验,包括BERT、RoBERTa等,并针对抑郁风险检测任务进行了微调。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在CNSocialDepress数据集上微调的大型语言模型在抑郁风险检测任务中取得了显著的性能提升。例如,BERT模型在二元分类任务上的F1值提高了5%以上。此外,结构化心理剖析实验也验证了数据集在心理分析方面的有效性。

🎯 应用场景

该研究成果可应用于开发针对中文人群的心理健康应用程序,例如抑郁风险预警系统、个性化心理咨询服务等。通过分析社交媒体数据,可以及早发现潜在的抑郁症患者,并提供及时的心理支持和干预,从而降低抑郁症的发病率和危害。

📄 摘要(原文)

Depression is a pressing global public health issue, yet publicly available Chinese-language resources for risk detection remain scarce and are mostly limited to binary classification. To address this limitation, we release CNSocialDepress, a benchmark dataset for depression risk detection from Chinese social media posts. The dataset contains 44,178 texts from 233 users, within which psychological experts annotated 10,306 depression-related segments. CNSocialDepress provides binary risk labels together with structured multi-dimensional psychological attributes, enabling interpretable and fine-grained analysis of depressive signals. Experimental results demonstrate its utility across a wide range of NLP tasks, including structured psychological profiling and fine-tuning of large language models for depression detection. Comprehensive evaluations highlight the dataset's effectiveness and practical value for depression risk identification and psychological analysis, thereby providing insights to mental health applications tailored for Chinese-speaking populations.