Automated Thematic Analyses Using LLMs: Xylazine Wound Management Social Media Chatter Use Case

📄 arXiv: 2507.10803v1 📥 PDF

作者: JaMor Hairston, Ritvik Ranjan, Sahithi Lakamana, Anthony Spadaro, Selen Bozkurt, Jeanmarie Perrone, Abeed Sarker

分类: cs.AI, cs.CL, cs.ET, cs.IR

发布日期: 2025-07-14

备注: Pages: 19, Abstract word count: 151 words, Manuscript word count: 2185 words, References: 14, Figures: 3, Tables: 2

DOI: 10.1093/jamiaopen/ooaf102


💡 一句话要点

利用LLM自动进行主题分析:以赛拉嗪伤口管理社交媒体讨论为例

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 主题分析 大型语言模型 自然语言处理 定性分析 社交媒体 提示工程 公共卫生 少样本学习

📋 核心要点

  1. 传统主题分析耗时且依赖专家,缺乏可扩展性,难以应对海量社交媒体数据。
  2. 论文提出利用少样本学习的大型语言模型(LLM)来自动化主题分析,模拟专家编码过程。
  3. 实验表明,GPT-4o在赛拉嗪相关Reddit数据上表现出色,准确率达90.9%,F1值为0.71,验证了方法的可行性。

📝 摘要(中文)

大型语言模型(LLM)在归纳主题分析中面临挑战,这项任务需要深入的解释和特定领域的专业知识。我们评估了使用LLM复制专家驱动的社交媒体数据主题分析的可行性。使用两个时间上不相交的关于赛拉嗪的Reddit数据集(分别为n=286和n=686,用于模型优化和验证),以及十二个专家导出的主题,我们针对专家编码评估了五个LLM。我们将任务建模为一系列二元分类,而不是单一的多标签分类,采用零样本、单样本和少样本提示策略,并通过准确率、精确率、召回率和F1分数来衡量性能。在验证集上,采用两样本提示的GPT-4o表现最佳(准确率:90.9%;F1分数:0.71)。对于高流行主题,模型导出的主题分布与专家分类非常相似(例如,赛拉嗪使用:13.6% vs. 17.8%;药物滥用治疗使用:16.5% vs. 17.8%)。我们的研究结果表明,基于少样本LLM的方法可以自动化主题分析,为定性研究提供可扩展的补充。

🔬 方法详解

问题定义:论文旨在解决传统人工主题分析在处理大规模社交媒体数据时效率低下、成本高昂的问题。现有方法依赖领域专家手动编码,耗时且主观性强,难以快速响应公共卫生事件。赛拉嗪滥用及其引发的伤口管理问题日益严重,需要快速分析社交媒体上的相关讨论,以便及时制定干预措施。

核心思路:论文的核心思路是将主题分析任务转化为一系列二元分类问题,利用LLM的文本理解和生成能力,通过少样本学习模拟专家编码过程。通过提供少量标注样本(few-shot prompting),引导LLM学习不同主题的特征,从而自动对新的文本数据进行分类。这种方法旨在降低对大量标注数据的依赖,提高主题分析的效率和可扩展性。

技术框架:整体框架包括数据准备、模型选择、提示工程、模型评估四个主要阶段。首先,收集并清洗赛拉嗪相关的Reddit数据,并由领域专家进行主题标注。然后,选择合适的LLM(如GPT-4o),并设计零样本、单样本和少样本提示策略。接着,将主题分析任务分解为一系列二元分类任务,每个任务对应一个主题。最后,使用准确率、精确率、召回率和F1分数等指标评估模型性能,并将模型结果与专家标注进行对比。

关键创新:论文的关键创新在于将LLM应用于自动化主题分析,并采用少样本学习策略。与传统的机器学习方法相比,LLM具有更强的文本理解和生成能力,能够更好地捕捉文本中的语义信息。少样本学习策略则降低了对大量标注数据的需求,提高了模型在实际应用中的可行性。此外,将主题分析任务分解为二元分类问题,简化了模型训练过程,提高了分类准确率。

关键设计:论文的关键设计包括:1) 选择GPT-4o等先进的LLM作为基础模型;2) 设计有效的少样本提示策略,包括选择合适的示例样本和提示语;3) 将主题分析任务分解为一系列二元分类任务,每个任务对应一个主题;4) 使用准确率、精确率、召回率和F1分数等指标综合评估模型性能;5) 采用两个时间上不相交的Reddit数据集进行模型优化和验证,确保结果的可靠性。

📊 实验亮点

实验结果表明,采用两样本提示的GPT-4o在验证集上表现最佳,准确率达到90.9%,F1分数为0.71。对于高流行主题,模型导出的主题分布与专家分类结果高度一致(例如,赛拉嗪使用:13.6% vs. 17.8%;药物滥用治疗使用:16.5% vs. 17.8%)。这些结果表明,基于少样本LLM的方法可以有效地自动化主题分析,并取得与专家相当的性能。

🎯 应用场景

该研究成果可应用于公共卫生监测、舆情分析、危机管理等领域。通过自动化分析社交媒体数据,可以快速识别和追踪新兴的公共卫生问题,评估干预措施的效果,并及时调整策略。此外,该方法还可以应用于市场调研、品牌声誉管理等商业领域,帮助企业更好地了解消费者需求和市场趋势。

📄 摘要(原文)

Background Large language models (LLMs) face challenges in inductive thematic analysis, a task requiring deep interpretive and domain-specific expertise. We evaluated the feasibility of using LLMs to replicate expert-driven thematic analysis of social media data. Methods Using two temporally non-intersecting Reddit datasets on xylazine (n=286 and n=686, for model optimization and validation, respectively) with twelve expert-derived themes, we evaluated five LLMs against expert coding. We modeled the task as a series of binary classifications, rather than a single, multi-label classification, employing zero-, single-, and few-shot prompting strategies and measuring performance via accuracy, precision, recall, and F1-score. Results On the validation set, GPT-4o with two-shot prompting performed best (accuracy: 90.9%; F1-score: 0.71). For high-prevalence themes, model-derived thematic distributions closely mirrored expert classifications (e.g., xylazine use: 13.6% vs. 17.8%; MOUD use: 16.5% vs. 17.8%). Conclusions Our findings suggest that few-shot LLM-based approaches can automate thematic analyses, offering a scalable supplement for qualitative research. Keywords: thematic analysis, large language models, natural language processing, qualitative analysis, social media, prompt engineering, public health