Hope vs. Hate: Understanding User Interactions with LGBTQ+ News Content in Mainstream US News Media through the Lens of Hope Speech

📄 arXiv: 2502.09004v3 📥 PDF

作者: Jonathan Pofcher, Christopher M. Homan, Randall Sell, Ashiqur R. KhudaBukhsh

分类: cs.CL, cs.CY, cs.LG

发布日期: 2025-02-13 (更新: 2025-10-19)


💡 一句话要点

通过希望言论分析用户与美国主流媒体LGBTQ+新闻内容的互动

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: LGBTQ+新闻 希望言论 情感分析 用户互动 政治立场

📋 核心要点

  1. 现有方法难以细粒度地理解用户对LGBTQ+新闻内容的情感倾向,尤其是在希望言论方面的识别。
  2. 构建细粒度的希望言论分类器,区分正面、负面、中性和不相关内容,并结合用户政治立场进行分析。
  3. 注释研究表明,用户政治信仰显著影响内容评价,且零样本LLM的判断更偏向自由主义评估者。

📝 摘要(中文)

本文主要贡献有三点。首先,通过分析美国主要有线新闻媒体在YouTube上发布的3161个新闻视频下的1419047条评论,研究用户如何与LGBTQ+新闻内容互动。分析侧重于正面和负面内容。特别地,构建了一个细粒度的希望言论分类器,用于检测正面(希望言论)、负面、中性和不相关的内容。其次,与一位专门研究LGBTQ+健康的公共卫生专家协商,进行了一项注释研究,该研究具有平衡和多样化的政治代表性,并发布了一个包含3750个实例的数据集,其中包含细粒度的标签和详细的注释者人口统计信息。最后,除了为LGBTQ+社区提供重要资源外,我们的注释研究和随后的实际评估揭示了:(1)评估者的政治信仰与他们如何评价与边缘化社区相关的内容之间存在很强的关联;(2)在个体政治信仰上训练的模型在实际应用中表现出相当大的分歧;(3)零样本大型语言模型(LLM)更符合自由主义评估者的观点。

🔬 方法详解

问题定义:论文旨在理解用户如何与美国主流新闻媒体发布的关于LGBTQ+群体的新闻内容进行互动,特别是区分用户评论中的积极(希望言论)和消极情感。现有方法缺乏对希望言论的细粒度识别能力,并且忽略了用户政治立场对情感判断的影响。

核心思路:论文的核心思路是构建一个细粒度的希望言论分类器,并结合用户政治立场进行分析,以此更准确地理解用户对LGBTQ+新闻内容的反应。通过分析大量YouTube评论数据,并进行人工标注,揭示政治立场与情感判断之间的关联。

技术框架:整体框架包括数据收集、数据标注、模型训练和结果分析四个主要阶段。首先,收集美国主要有线新闻媒体在YouTube上发布的关于LGBTQ+新闻视频下的评论数据。然后,与公共卫生专家合作,进行人工标注,构建包含细粒度标签和用户政治立场信息的数据集。接着,训练希望言论分类器,并评估其性能。最后,分析模型在不同政治立场用户群体中的表现,以及零样本LLM的倾向性。

关键创新:论文的关键创新在于构建了一个细粒度的希望言论分类器,并将其与用户政治立场相结合,从而更深入地理解用户对LGBTQ+新闻内容的反应。此外,论文还揭示了用户政治立场对情感判断的显著影响,以及零样本LLM在情感判断上的倾向性。

关键设计:论文的关键设计包括:(1)构建细粒度的希望言论分类器,区分正面、负面、中性和不相关内容;(2)进行人工标注时,考虑了评估者的政治立场,确保数据集具有平衡和多样化的政治代表性;(3)评估模型时,分析其在不同政治立场用户群体中的表现,以及零样本LLM的倾向性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

研究表明,评估者的政治信仰与他们如何评价与LGBTQ+群体相关的内容之间存在很强的关联。在个体政治信仰上训练的模型在实际应用中表现出相当大的分歧。零样本大型语言模型(LLM)更符合自由主义评估者的观点。该研究构建了一个包含3750个实例的细粒度标注数据集,为后续研究提供了宝贵资源。

🎯 应用场景

该研究成果可应用于舆情分析、社会态度研究、在线社区管理等领域。通过识别和分析用户对LGBTQ+新闻内容的反应,可以帮助媒体机构、社会组织和政策制定者更好地了解公众态度,制定更有效的传播策略,促进社会包容和理解。此外,该研究还可以为大型语言模型的情感倾向性研究提供参考。

📄 摘要(原文)

This paper makes three contributions. First, via a substantial corpus of 1,419,047 comments posted on 3,161 YouTube news videos of major US cable news outlets, we analyze how users engage with LGBTQ+ news content. Our analyses focus both on positive and negative content. In particular, we construct a fine-grained hope speech classifier that detects positive (hope speech), negative, neutral, and irrelevant content. Second, in consultation with a public health expert specializing on LGBTQ+ health, we conduct an annotation study with a balanced and diverse political representation and release a dataset of 3,750 instances with fine-grained labels and detailed annotator demographic information. Finally, beyond providing a vital resource for the LGBTQ+ community, our annotation study and subsequent in-the-wild assessments reveal (1) strong association between rater political beliefs and how they rate content relevant to a marginalized community; (2) models trained on individual political beliefs exhibit considerable in-the-wild disagreement; and (3) zero-shot large language models (LLMs) align more with liberal raters.