Leveraging ChatGPT and Other NLP Methods for Identifying Risk and Protective Behaviors in MSM: Social Media and Dating apps Text Analysis

作者: Mehrab Beikzadeh, Chenglin Hong, Cory J Cascalheira, Callisto Boka, Majid Sarrafzadeh, Ian W Holloway

分类: cs.AI, cs.CL

发布日期: 2026-01-20

💡 一句话要点

利用ChatGPT等NLP方法识别MSM人群的风险和保护行为：社交媒体和约会应用文本分析

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 男男性行为者 风险行为预测 自然语言处理 ChatGPT BERT 社交媒体分析 公共卫生干预

📋 核心要点

男男性行为者(MSM)面临更高的健康风险，现有方法缺乏有效利用社交媒体文本进行风险评估的手段。
利用ChatGPT和BERT等NLP模型提取文本特征，结合LIWC和风险词典，构建机器学习模型预测MSM的风险行为。
实验表明，该方法在预测狂饮和多性伴侣行为方面表现出色，为个性化公共卫生干预提供了可能。

📝 摘要（中文）

与异性恋男性相比，男男性行为者（MSM）感染性传播疾病和有害饮酒的风险更高。从社交媒体和约会应用收集的文本数据，通过自动识别风险和保护行为，可能为个性化的公共卫生干预提供新的机会。本研究评估了来自社交媒体和约会应用的文本是否可以用于预测MSM的性风险行为、酒精使用和暴露前预防（PrEP）的接受情况。在获得参与者同意后，我们收集了文本数据，并使用来自ChatGPT嵌入、BERT嵌入、LIWC和基于词典的风险术语方法提取的特征训练了机器学习模型。该模型在预测每月狂饮和拥有超过五个性伴侣方面表现出色，F1得分分别为0.78，在预测PrEP使用和重度饮酒方面表现中等，F1得分分别为0.64和0.63。这些发现表明，社交媒体和约会应用文本数据可以为风险和保护行为提供有价值的见解，并突出了基于大型语言模型的方法在支持MSM人群可扩展和个性化的公共卫生干预方面的潜力。

🔬 方法详解

问题定义：该论文旨在解决如何利用社交媒体和约会应用上的文本数据，自动识别男男性行为者（MSM）的风险和保护行为，从而为个性化的公共卫生干预提供支持。现有方法难以有效利用这些非结构化文本数据，并且缺乏对MSM特定风险行为的针对性分析。

核心思路：论文的核心思路是利用先进的自然语言处理（NLP）技术，特别是大型语言模型（LLM）如ChatGPT和BERT，从MSM的社交媒体和约会应用文本中提取有意义的特征，并结合传统的词典方法和LIWC分析，构建机器学习模型来预测其性风险行为、酒精使用和PrEP使用情况。这种方法旨在捕捉文本中蕴含的深层语义信息，从而更准确地识别风险行为。

技术框架：整体框架包括以下几个主要阶段：1) 数据收集：在获得参与者同意后，收集来自社交媒体和约会应用的文本数据。2) 特征提取：使用ChatGPT和BERT生成文本嵌入，利用LIWC进行情感和认知分析，并采用基于风险词典的方法识别风险术语。3) 模型训练：使用提取的特征训练机器学习模型，如分类器，以预测不同的风险行为（如狂饮、多性伴侣、PrEP使用等）。4) 模型评估：使用F1 score等指标评估模型的性能。

关键创新：最重要的技术创新点在于将大型语言模型（如ChatGPT）的嵌入应用于MSM风险行为的预测。与传统的词袋模型或简单的词典方法相比，LLM能够更好地理解文本的语义和上下文，从而提取更具信息量的特征。此外，结合多种特征提取方法（LLM嵌入、LIWC、风险词典）也提高了模型的鲁棒性和准确性。

关键设计：论文的关键设计包括：1) 使用ChatGPT和BERT的预训练模型，并通过微调来适应特定任务。2) 选择合适的机器学习模型，如逻辑回归或支持向量机，进行分类预测。3) 采用F1 score作为评估指标，以平衡精确率和召回率。4) 针对不同的风险行为，选择不同的特征组合，以优化模型性能。具体参数设置和网络结构等细节在论文中可能没有详细描述，属于未知信息。

📊 实验亮点

实验结果表明，该方法在预测每月狂饮和拥有超过五个性伴侣方面表现出色，F1得分分别为0.78。在预测PrEP使用和重度饮酒方面，F1得分分别为0.64和0.63，表现中等。这些结果显著优于传统的基于词袋模型的方法，验证了大型语言模型在风险行为预测方面的有效性。

🎯 应用场景

该研究成果可应用于开发个性化的公共卫生干预系统，针对MSM人群的特定风险行为提供定制化的健康建议和支持。通过分析社交媒体和约会应用文本，可以及早发现高风险个体，并进行有针对性的干预，从而降低性传播疾病的传播和有害饮酒的发生。未来，该技术还可扩展到其他高危人群的风险评估和干预。

📄 摘要（原文）

Men who have sex with men (MSM) are at elevated risk for sexually transmitted infections and harmful drinking compared to heterosexual men. Text data collected from social media and dating applications may provide new opportunities for personalized public health interventions by enabling automatic identification of risk and protective behaviors. In this study, we evaluated whether text from social media and dating apps can be used to predict sexual risk behaviors, alcohol use, and pre-exposure prophylaxis (PrEP) uptake among MSM. With participant consent, we collected textual data and trained machine learning models using features derived from ChatGPT embeddings, BERT embeddings, LIWC, and a dictionary-based risk term approach. The models achieved strong performance in predicting monthly binge drinking and having more than five sexual partners, with F1 scores of 0.78, and moderate performance in predicting PrEP use and heavy drinking, with F1 scores of 0.64 and 0.63. These findings demonstrate that social media and dating app text data can provide valuable insights into risk and protective behaviors and highlight the potential of large language model-based methods to support scalable and personalized public health interventions for MSM.

Leveraging ChatGPT and Other NLP Methods for Identifying Risk and Protective Behaviors in MSM: Social Media and Dating apps Text Analysis

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理