Can GPT-4 Help Detect Quit Vaping Intentions? An Exploration of Automatic Data Annotation Approach

📄 arXiv: 2407.00167v1 📥 PDF

作者: Sai Krishna Revanth Vuruma, Dezhi Wu, Saborny Sen Gupta, Lucas Aust, Valerie Lookingbill, Wyatt Bellamy, Yang Ren, Erin Kasson, Li-Shiun Chen, Patricia Cavazos-Rehg, Dian Hu, Ming Huang

分类: cs.CL, cs.AI, cs.ET, cs.HC, cs.SI

发布日期: 2024-06-28

备注: Accepted for the AI Applications in Public Health and Social Services workshop at the 22nd International Conference on Artificial Intelligence in Medicine (AIME 2024)


💡 一句话要点

利用GPT-4检测戒电子烟意图:一种自动数据标注方法探索

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: GPT-4 电子烟 戒烟意图检测 社交媒体分析 自然语言处理

📋 核心要点

  1. 电子烟使用日益普及,对公共健康构成威胁,社交媒体数据蕴含大量用户行为信息,但人工标注成本高昂。
  2. 利用GPT-4强大的自然语言理解能力,自动检测社交媒体文本中用户戒电子烟的意图,降低标注成本。
  3. 通过不同提示策略,对比GPT-4与人工标注结果,验证GPT-4在识别用户微妙意图方面的潜力。

📝 摘要(中文)

近年来,美国电子烟使用显著增加,导致与电子烟相关的肺损伤病例激增,2019年爆发的EVALI事件造成住院和死亡,凸显了理解电子烟行为和制定有效戒烟策略的紧迫性。社交媒体平台拥有超过47亿用户,成为连接、交流、新闻和娱乐的重要渠道,其中很大一部分讨论与健康相关,使其成为公共卫生研究的宝贵数据资源。本研究从Reddit上的一个电子烟子社区提取数据集,分析用户戒电子烟的意图。利用OpenAI最新的大型语言模型GPT-4进行句子级别的戒烟意图检测,并将模型结果与普通人和临床专家的标注进行比较。通过零样本、单样本、少样本和思维链等不同的提示策略,开发了8种不同详细程度的提示,以向GPT-4解释任务,并评估了这些策略的性能。初步结果强调了GPT-4在社交媒体数据分析中的潜力,尤其是在识别人类难以察觉的用户微妙意图方面。

🔬 方法详解

问题定义:本研究旨在解决如何高效、准确地从社交媒体文本中识别用户戒电子烟意图的问题。现有方法主要依赖人工标注,成本高、效率低,且难以捕捉用户表达的细微意图。

核心思路:利用大型语言模型GPT-4强大的文本理解和生成能力,通过不同的提示策略引导GPT-4理解戒烟意图检测任务,并自动标注社交媒体文本数据。核心在于探索GPT-4在处理此类任务上的能力,并与人工标注结果进行对比,评估其性能。

技术框架:整体流程包括:1) 从Reddit电子烟子社区提取数据集;2) 设计不同的提示策略(零样本、单样本、少样本、思维链);3) 使用GPT-4对数据集进行句子级别的戒烟意图检测;4) 将GPT-4的标注结果与普通人和临床专家的标注结果进行比较,评估GPT-4的性能。

关键创新:本研究的关键创新在于探索了GPT-4在社交媒体文本分析中的应用,特别是利用GPT-4自动检测用户微妙的戒烟意图。与传统的人工标注方法相比,GPT-4具有更高的效率和更低的成本,并且可能能够捕捉到人类难以察觉的细微意图。

关键设计:研究设计了8种不同详细程度的提示,以向GPT-4解释任务。这些提示涵盖了零样本、单样本、少样本和思维链等不同的提示策略。通过比较不同提示策略下的GPT-4性能,可以评估不同提示方式对GPT-4效果的影响。具体的参数设置和损失函数等细节未在摘要中提及,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该研究初步结果表明,GPT-4在社交媒体数据分析中具有潜力,尤其是在识别用户微妙意图方面。通过不同提示策略的对比,验证了GPT-4在戒烟意图检测任务中的有效性。具体的性能数据和提升幅度未在摘要中提及,属于未知信息。

🎯 应用场景

该研究成果可应用于公共卫生领域,帮助相关机构更有效地监测和干预电子烟使用行为。通过自动分析社交媒体数据,可以及时发现有戒烟意图的用户,并提供个性化的戒烟支持和服务。此外,该方法也可推广到其他健康行为的监测和干预中,例如戒酒、减肥等。

📄 摘要(原文)

In recent years, the United States has witnessed a significant surge in the popularity of vaping or e-cigarette use, leading to a notable rise in cases of e-cigarette and vaping use-associated lung injury (EVALI) that caused hospitalizations and fatalities during the EVALI outbreak in 2019, highlighting the urgency to comprehend vaping behaviors and develop effective strategies for cessation. Due to the ubiquity of social media platforms, over 4.7 billion users worldwide use them for connectivity, communications, news, and entertainment with a significant portion of the discourse related to health, thereby establishing social media data as an invaluable organic data resource for public health research. In this study, we extracted a sample dataset from one vaping sub-community on Reddit to analyze users' quit-vaping intentions. Leveraging OpenAI's latest large language model GPT-4 for sentence-level quit vaping intention detection, this study compares the outcomes of this model against layman and clinical expert annotations. Using different prompting strategies such as zero-shot, one-shot, few-shot and chain-of-thought prompting, we developed 8 prompts with varying levels of detail to explain the task to GPT-4 and also evaluated the performance of the strategies against each other. These preliminary findings emphasize the potential of GPT-4 in social media data analysis, especially in identifying users' subtle intentions that may elude human detection.