Large language models for newspaper sentiment analysis during COVID-19: The Guardian

📄 arXiv: 2405.13056v2 📥 PDF

作者: Rohitash Chandra, Baicheng Zhu, Qingying Fang, Eka Shinjikashvili

分类: cs.CL, cs.SI

发布日期: 2024-05-20 (更新: 2025-04-27)

期刊: Applied Soft Computing, Volume 171, 2025, pp. 112743


💡 一句话要点

利用大型语言模型分析新冠疫情期间《卫报》新闻情感倾向

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 情感分析 大型语言模型 新闻媒体 COVID-19 舆情分析

📋 核心要点

  1. 现有情感分析研究主要集中于社交媒体,忽略了报纸等传统媒体在疫情期间信息传播中的重要作用。
  2. 本研究利用大型语言模型,并使用专家标注数据进行微调,以分析《卫报》在疫情不同阶段的情感倾向。
  3. 结果表明,《卫报》在疫情期间以负面情绪为主导,与社交媒体的情感表达存在差异,反映了媒体的独特视角。

📝 摘要(中文)

在COVID-19大流行期间,新闻媒体涵盖了广泛的主题,包括病毒传播、医疗资源分配和政府应对措施。现有研究针对COVID-19期间社交媒体平台的情感分析,旨在了解公众对病例增加和政府控制病毒传播策略的反应。情感分析可以更好地理解疫情期间社会舆论和情绪趋势的变化。除了社交媒体,报纸在传播信息方面也发挥了重要作用,包括来自政府、专家和公众关于各种主题的信息。针对特定国家报纸来源在COVID-19期间的情感分析研究,可以概述媒体如何报道疫情。本研究选择《卫报》报纸,并提供在COVID-19各个阶段(包括初始传播、封锁和疫苗接种)的情感分析。我们采用新型大型语言模型(LLM),并使用专家标记的情感分析数据对其进行优化。我们还提供了疫情前的情感分析以作比较。结果表明,在疫情早期阶段,公众情绪优先考虑紧急危机应对,后来转向解决对健康和经济的影响。与相关的社交媒体情感分析研究相比,我们发现《卫报》存在差异,负面情绪(悲伤、恼怒、焦虑和否认)占主导地位,这表明社交媒体提供了更多样化的情感反映。我们发现《卫报》中存在一种严峻的叙事,在COVID-19之前和期间,澳大利亚、英国、世界新闻和观点等新闻版块普遍存在负面情绪。

🔬 方法详解

问题定义:本研究旨在分析COVID-19疫情期间《卫报》新闻报道的情感倾向,以了解媒体如何呈现疫情以及公众情绪的变化。现有情感分析方法主要集中于社交媒体,缺乏对传统媒体的深入研究,并且可能无法准确捕捉新闻报道中复杂的情感表达。

核心思路:本研究的核心思路是利用大型语言模型(LLM)强大的文本理解和情感识别能力,并结合专家标注数据进行微调,以提高情感分析的准确性和可靠性。通过对比疫情前后的情感变化,以及与社交媒体情感表达的差异,深入了解媒体在疫情期间的角色和影响。

技术框架:本研究的技术框架主要包括以下几个阶段:1) 数据收集:收集《卫报》在疫情不同阶段的新闻报道文本数据;2) 数据预处理:对文本数据进行清洗、分词等预处理操作;3) 模型选择与微调:选择合适的大型语言模型,并使用专家标注的情感分析数据进行微调,以提高模型的情感识别能力;4) 情感分析:使用微调后的模型对新闻报道文本进行情感分析,提取情感倾向(如积极、消极、中性);5) 结果分析与可视化:对情感分析结果进行统计分析和可视化展示,揭示疫情期间《卫报》新闻报道的情感变化趋势。

关键创新:本研究的关键创新在于:1) 将大型语言模型应用于报纸新闻报道的情感分析,克服了传统情感分析方法在处理复杂文本方面的局限性;2) 结合专家标注数据对模型进行微调,提高了情感分析的准确性和可靠性;3) 对比分析了疫情前后以及与社交媒体的情感差异,揭示了媒体在疫情期间的独特视角和影响。

关键设计:本研究的关键设计包括:1) 选择合适的预训练大型语言模型,例如BERT或RoBERTa等,并根据具体任务进行微调;2) 设计合理的情感分类体系,例如将情感分为积极、消极、中性等类别;3) 采用合适的评估指标,例如准确率、召回率、F1值等,评估模型的情感分析性能;4) 对模型进行超参数调优,例如学习率、批次大小等,以获得最佳的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

研究结果表明,《卫报》在疫情早期阶段的新闻报道以负面情绪为主导,主要集中在对危机的担忧和对经济影响的关注。与社交媒体相比,《卫报》的情感表达更为负面,反映了媒体对疫情的严肃态度和对社会问题的深刻关注。该研究为理解疫情期间媒体的角色和影响提供了有价值的 insights。

🎯 应用场景

该研究成果可应用于舆情监控、危机管理、公共卫生政策制定等领域。通过分析新闻媒体的情感倾向,可以及时了解社会情绪变化,为政府和相关机构提供决策参考。此外,该方法还可以推广到其他类型媒体的情感分析,为更全面地了解社会舆论提供支持。

📄 摘要(原文)

During the COVID-19 pandemic, the news media coverage encompassed a wide range of topics that includes viral transmission, allocation of medical resources, and government response measures. There have been studies on sentiment analysis of social media platforms during COVID-19 to understand the public response given the rise of cases and government strategies implemented to control the spread of the virus. Sentiment analysis can provide a better understanding of changes in societal opinions and emotional trends during the pandemic. Apart from social media, newspapers have played a vital role in the dissemination of information, including information from the government, experts, and also the public about various topics. A study of sentiment analysis of newspaper sources during COVID-19 for selected countries can give an overview of how the media covered the pandemic. In this study, we select The Guardian newspaper and provide a sentiment analysis during various stages of COVID-19 that includes initial transmission, lockdowns and vaccination. We employ novel large language models (LLMs) and refine them with expert-labelled sentiment analysis data. We also provide an analysis of sentiments experienced pre-pandemic for comparison. The results indicate that during the early pandemic stages, public sentiment prioritised urgent crisis response, later shifting focus to addressing the impact on health and the economy. In comparison with related studies about social media sentiment analyses, we found a discrepancy between The Guardian with dominance of negative sentiments (sad, annoyed, anxious and denial), suggesting that social media offers a more diversified emotional reflection. We found a grim narrative in The Guardian with overall dominance of negative sentiments, pre and during COVID-19 across news sections including Australia, UK, World News, and Opinion