Emotions, Context, and Substance Use in Adolescents: A Large Language Model Analysis of Reddit Posts

📄 arXiv: 2501.14037v2 📥 PDF

作者: Jianfeng Zhu, Hailong Jiang, Yulan Wang, Karin G. Coifman, Ruoming Jin, Deric R. Kenne

分类: cs.CL

发布日期: 2025-01-23 (更新: 2025-11-14)

备注: 19 pages, 5 figures


💡 一句话要点

利用大型语言模型分析Reddit帖子,揭示青少年情绪、环境与物质使用间的关联。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 青少年心理健康 物质使用 大型语言模型 社交媒体分析 情绪识别

📋 核心要点

  1. 青少年早期物质使用会增加日后物质使用障碍和精神健康问题的风险,但驱动这些行为的情绪和环境因素尚不明确。
  2. 本研究利用大型语言模型分析Reddit帖子,标注情绪和环境因素,并结合统计分析和可解释机器学习,揭示物质使用行为的潜在机制。
  3. 研究发现负面情绪与物质使用相关,同伴影响是关键环境因素,家庭和学校环境的影响取决于关系质量和压力水平。

📝 摘要(中文)

本研究分析了Reddit r/teenagers社区(2018-2022)中23000篇与物质使用相关的帖子以及相同数量的非物质使用帖子,旨在了解青少年物质使用的情绪和环境驱动因素。利用大型语言模型(LLM)对帖子进行标注,识别六种离散情绪(悲伤、愤怒、快乐、内疚、恐惧、厌恶)和环境因素(家庭、同伴、学校)。通过统计分析比较组间差异,并使用可解释机器学习(SHAP)识别物质使用讨论的关键预测因素。LLM辅助的主题编码进一步揭示了连接情绪与环境的潜在心理社会主题。结果表明,负面情绪,尤其是悲伤、内疚、恐惧和厌恶,在物质使用帖子中更为常见,而快乐主导非物质使用讨论。内疚和羞耻的功能不同:内疚通常反映后悔和自我反思,而羞耻通过同伴表现强化冒险行为。同伴影响是最强的环境因素,与悲伤、恐惧和内疚密切相关。家庭和学校环境根据关系质量和压力水平,既是风险因素也是保护因素。总体而言,青少年物质使用讨论反映了情绪、社会环境和应对行为的动态相互作用。本研究通过整合统计分析、可解释模型和基于LLM的主题探索,展示了混合计算方法在揭示青少年风险行为的情绪和环境机制方面的价值。

🔬 方法详解

问题定义:本研究旨在深入理解青少年物质使用行为背后的情绪和环境因素。现有方法难以有效捕捉社交媒体文本中复杂的情绪表达和上下文信息,并且缺乏对不同情绪功能差异的细致分析。

核心思路:利用大型语言模型(LLM)强大的自然语言理解能力,自动识别和标注Reddit帖子中的情绪和环境因素。结合统计分析、可解释机器学习和主题编码,从宏观和微观层面揭示情绪、环境与物质使用之间的关联。

技术框架:研究流程主要包括数据收集与预处理、LLM标注、统计分析、可解释机器学习和主题编码五个阶段。首先,从Reddit r/teenagers社区收集物质使用和非物质使用相关的帖子。然后,使用预训练的LLM对帖子进行情绪和环境因素的自动标注。接着,通过统计分析比较两组帖子在情绪和环境因素上的差异。利用SHAP等可解释机器学习方法识别物质使用讨论的关键预测因素。最后,采用LLM辅助的主题编码方法,挖掘连接情绪与环境的潜在心理社会主题。

关键创新:本研究的关键创新在于将大型语言模型应用于青少年物质使用行为的研究,并结合多种计算方法进行综合分析。与传统方法相比,LLM能够更准确地识别文本中的情绪和环境信息,并支持更深入的主题挖掘。此外,研究还区分了内疚和羞耻在物质使用行为中的不同功能,为干预策略的制定提供了新的视角。

关键设计:研究使用了预训练的LLM进行情绪和环境因素的自动标注,具体使用的模型名称未知。在可解释机器学习方面,采用了SHAP方法来识别关键预测因素。主题编码过程使用了LLM辅助的方法,具体实现细节未知。统计分析采用了常见的假设检验方法,例如t检验和卡方检验。

📊 实验亮点

研究发现,负面情绪(悲伤、内疚、恐惧、厌恶)在物质使用帖子中显著高于非物质使用帖子。同伴影响被确定为最强的环境因素,与悲伤、恐惧和内疚密切相关。内疚和羞耻的功能存在差异,内疚反映后悔和自我反思,而羞耻强化冒险行为。这些发现为理解青少年物质使用行为提供了新的见解。

🎯 应用场景

该研究成果可应用于青少年心理健康干预、预防物质滥用等领域。通过分析社交媒体数据,可以早期识别高风险青少年群体,并针对性地提供心理支持和干预措施。此外,研究结果有助于制定更有效的公共卫生政策,以改善青少年的心理健康状况。

📄 摘要(原文)

Early substance use during adolescence increases the risk of later substance use disorders and mental health problems, yet the emotional and contextual factors driving these behaviors remain poorly understood. This study analyzed 23000 substance-use related posts and an equal number of non-substance posts from Reddit's r/teenagers community (2018-2022). Posts were annotated for six discrete emotions (sadness, anger, joy, guilt, fear, disgust) and contextual factors (family, peers, school) using large language models (LLMs). Statistical analyses compared group differences, and interpretable machine learning (SHAP) identified key predictors of substance-use discussions. LLM-assisted thematic coding further revealed latent psychosocial themes linking emotions with contexts. Negative emotions, especially sadness, guilt, fear, and disgust, were significantly more common in substance-use posts, while joy dominated non-substance discussions. Guilt and shame diverged in function: guilt often reflected regret and self-reflection, whereas shame reinforced risky behaviors through peer performance. Peer influence emerged as the strongest contextual factor, closely tied to sadness, fear, and guilt. Family and school environments acted as both risk and protective factors depending on relational quality and stress levels. Overall, adolescent substance-use discussions reflected a dynamic interplay of emotion, social context, and coping behavior. By integrating statistical analysis, interpretable models, and LLM-based thematic exploration, this study demonstrates the value of mixed computational approaches for uncovering the emotional and contextual mechanisms underlying adolescent risk behavior.