Large Language Models' Accuracy in Emulating Human Experts' Evaluation of Public Sentiments about Heated Tobacco Products on Social Media

作者: Kwanho Kim, Soojong Kim

分类: cs.CL, cs.CY, cs.SI

发布日期: 2025-01-31

DOI: 10.2196/63631

💡 一句话要点

利用大型语言模型模拟人类专家评估社交媒体上对加热烟草制品的情绪

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 情绪分析 加热烟草制品 社交媒体 GPT-4 Turbo

📋 核心要点

社交媒体上对新型烟草制品的情绪分析至关重要，但人工分析耗时费力，需要更高效的方法。
本研究探索使用大型语言模型（LLMs）模拟人类专家进行情绪评估，以自动化分析社交媒体文本。
实验表明GPT-4 Turbo在HTP相关社交媒体文本的情绪分析中表现出色，准确率接近80%，但各类情绪准确率存在差异。

📝 摘要（中文）

社交媒体上关于替代烟草制品的情绪分析对于烟草控制研究至关重要。大型语言模型（LLMs）可以帮助简化劳动密集型的人工情绪分析过程。本研究旨在检验LLMs在复制人类对社交媒体上关于加热烟草制品（HTPs）信息的情绪评估方面的准确性。研究使用GPT-3.5和GPT-4 Turbo对500条Facebook和500条Twitter消息进行分类，包括反HTPs、支持HTPs和中性消息。模型对每条消息评估最多20次，并将其多数标签与人类评估员进行比较。结果表明，GPT-3.5在Facebook消息上的准确率为61.2%，在Twitter消息上的准确率为57.0%。GPT-4 Turbo表现更好，在Facebook上的准确率为81.7%，在Twitter上的准确率为77.0%。使用三个响应实例时，GPT-4 Turbo达到了20个实例的99%的准确率。GPT-4 Turbo在反HTPs和支持HTPs消息上的准确率也高于中性消息。GPT-3.5的错误分类通常涉及将反HTPs或支持HTPs消息标记为中性或不相关，而GPT-4 Turbo在所有类别中都表现出改进。总之，LLMs可用于HTP相关社交媒体消息的情绪分析，GPT-4 Turbo的准确率达到约80%，与人类专家相比接近。然而，由于不同情绪类别之间的准确性差异，存在歪曲整体情绪的风险。

🔬 方法详解

问题定义：本研究旨在解决人工情绪分析在社交媒体烟草制品相关内容分析中效率低下的问题。现有方法依赖人工标注，耗时且成本高昂，难以快速处理海量数据。因此，需要一种自动化的方法来高效准确地分析社交媒体用户对加热烟草制品的情绪。

核心思路：论文的核心思路是利用大型语言模型（LLMs）强大的文本理解和生成能力，模拟人类专家的情绪评估过程。通过将社交媒体文本输入LLMs，让其自动判断文本的情绪倾向（如支持、反对或中立），从而替代人工标注。这样可以显著提高分析效率，降低成本。

技术框架：研究的技术框架主要包括以下几个步骤：1) 数据收集：收集Facebook和Twitter上关于加热烟草制品（HTPs）的社交媒体消息，包括支持、反对和中性三种类型。2) 模型选择：选择GPT-3.5和GPT-4 Turbo两种LLMs进行实验。3) 情绪评估：使用LLMs对每条消息进行多次评估（最多20次），并记录每次评估结果。4) 结果汇总：统计LLMs对每条消息的多数标签，作为该消息的最终情绪评估结果。5) 结果比较：将LLMs的评估结果与人类专家的评估结果进行比较，计算LLMs的准确率。

关键创新：本研究的关键创新在于验证了大型语言模型在模拟人类专家进行特定领域（加热烟草制品）情绪分析方面的可行性。通过实验证明，GPT-4 Turbo在准确率方面表现出色，接近人类专家水平。此外，研究还探讨了不同LLMs在不同情绪类别上的表现差异，为实际应用提供了指导。

关键设计：研究的关键设计包括：1) 多次评估：对每条消息进行多次评估，以提高评估的稳定性。2) 多数投票：采用多数投票的方式确定最终情绪评估结果，以减少随机误差。3) 分类评估：分别评估LLMs在支持、反对和中性三种情绪类别上的准确率，以了解其在不同类别上的表现差异。4) 实例数量分析：分析使用不同数量的响应实例对GPT-4 Turbo准确率的影响，发现仅使用三个实例即可达到接近20个实例的准确率。

📊 实验亮点

实验结果表明，GPT-4 Turbo在模拟人类专家评估社交媒体上关于加热烟草制品的情绪方面表现出色，在Facebook和Twitter上的准确率分别达到81.7%和77.0%。此外，研究发现仅使用三个响应实例，GPT-4 Turbo即可达到接近使用二十个实例的准确率，显著降低了计算成本。GPT-4 Turbo在识别反HTPs和支持HTPs消息方面也优于识别中性消息。

🎯 应用场景

该研究成果可应用于公共卫生领域，帮助相关机构快速了解公众对新型烟草制品的态度，为制定合理的烟草控制政策提供数据支持。此外，该方法也可推广至其他领域，例如舆情监控、产品评价分析等，具有广泛的应用前景和实际价值。未来，可以进一步研究如何提高LLMs在特定领域情绪分析中的准确率和鲁棒性。

📄 摘要（原文）

Sentiment analysis of alternative tobacco products on social media is important for tobacco control research. Large Language Models (LLMs) can help streamline the labor-intensive human sentiment analysis process. This study examined the accuracy of LLMs in replicating human sentiment evaluation of social media messages about heated tobacco products (HTPs). The research used GPT-3.5 and GPT-4 Turbo to classify 500 Facebook and 500 Twitter messages, including anti-HTPs, pro-HTPs, and neutral messages. The models evaluated each message up to 20 times, and their majority label was compared to human evaluators. Results showed that GPT-3.5 accurately replicated human sentiment 61.2% of the time for Facebook messages and 57.0% for Twitter messages. GPT-4 Turbo performed better, with 81.7% accuracy for Facebook and 77.0% for Twitter. Using three response instances, GPT-4 Turbo achieved 99% of the accuracy of twenty instances. GPT-4 Turbo also had higher accuracy for anti- and pro-HTPs messages compared to neutral ones. Misclassifications by GPT-3.5 often involved anti- or pro-HTPs messages being labeled as neutral or irrelevant, while GPT-4 Turbo showed improvements across all categories. In conclusion, LLMs can be used for sentiment analysis of HTP-related social media messages, with GPT-4 Turbo reaching around 80% accuracy compared to human experts. However, there's a risk of misrepresenting overall sentiment due to differences in accuracy across sentiment categories.

Large Language Models' Accuracy in Emulating Human Experts' Evaluation of Public Sentiments about Heated Tobacco Products on Social Media

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理