MediaSpin: Exploring Media Bias Through Fine-Grained Analysis of News Headlines

📄 arXiv: 2412.02271v2 📥 PDF

作者: Preetika Verma, Kokil Jaidka

分类: cs.CL

发布日期: 2024-12-03 (更新: 2025-05-23)

备注: 8 pages, 3 figures, 8 tables


💡 一句话要点

MediaSpin数据集:通过细粒度分析新闻标题探索媒体偏见。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 媒体偏见 新闻标题 数据集 自然语言处理 LLM 用户行为分析 偏见检测

📋 核心要点

  1. 社交媒体时代,新闻标题的编辑对公众认知影响巨大,但缺乏系统性的媒体偏见分析方法。
  2. 论文构建了MediaSpin数据集,包含大量新闻标题编辑对,并标注了13种媒体偏见类型。
  3. 该数据集可用于偏见预测和用户行为分析,并为深入理解新闻标题编辑中的语言学现象提供支持。

📝 摘要(中文)

在线新闻内容的可编辑性已成为塑造公众认知的重要因素,社交媒体平台为动态和自适应的新闻框架引入了新的功能。对新闻标题的编辑可以重新聚焦受众注意力,添加或删除情感语言,并以微妙但有影响力的方式改变事件的框架。哪些类型的媒体偏见被编辑进出新闻标题?如何系统地识别它们?本研究介绍了MediaSpin数据集,这是第一个表征主要新闻媒体在发布后如何编辑新闻标题中的偏见的数据集。该数据集包括78,910对标题,并使用人工监督的LLM标注了13种不同类型的媒体偏见。我们讨论了它提供的语言学见解,并展示了它在偏见预测和用户行为分析中的应用。

🔬 方法详解

问题定义:该论文旨在解决在线新闻标题编辑中存在的媒体偏见识别问题。现有方法缺乏细粒度的偏见类型划分,难以系统性地分析新闻标题编辑对公众认知的影响。缺乏大规模标注数据集也是一个重要瓶颈。

核心思路:论文的核心思路是通过构建一个大规模、细粒度标注的新闻标题编辑对数据集,来系统性地分析和识别媒体偏见。通过人工监督的LLM标注,可以有效地识别和分类不同类型的偏见。

技术框架:该研究的核心是MediaSpin数据集的构建。数据集包含78,910对新闻标题,每对标题代表同一新闻事件的原始标题和编辑后的标题。数据集中的每个标题对都由人工监督的LLM标注了13种不同类型的媒体偏见。研究人员还探讨了该数据集在偏见预测和用户行为分析中的应用。

关键创新:该论文的关键创新在于构建了首个专门用于分析新闻标题编辑中媒体偏见的大规模数据集MediaSpin。该数据集不仅规模庞大,而且标注了13种细粒度的偏见类型,为深入研究媒体偏见提供了基础。此外,使用人工监督的LLM进行标注,提高了标注的效率和准确性。

关键设计:数据集的构建过程中,首先收集了大量新闻标题编辑对,然后定义了13种媒体偏见类型,包括但不限于情感色彩、立场偏见、信息选择性呈现等。为了保证标注质量,采用了人工监督的LLM标注方法,即人工专家对LLM的标注结果进行审核和修正。具体的LLM选择和prompt设计未知。

📊 实验亮点

MediaSpin数据集包含78,910对新闻标题,并标注了13种不同类型的媒体偏见,是目前最大的此类数据集。实验结果表明,该数据集可有效用于训练偏见预测模型,并为用户行为分析提供有价值的 insights。具体的性能指标和对比基线未知。

🎯 应用场景

该研究成果可应用于媒体偏见检测、新闻推荐系统优化、以及提升公众对媒体信息的批判性思维。通过分析新闻标题的编辑模式,可以帮助用户识别潜在的媒体偏见,从而做出更明智的判断。此外,该数据集也可用于训练AI模型,自动检测和过滤带有偏见的新闻内容。

📄 摘要(原文)

The editability of online news content has become a significant factor in shaping public perception, as social media platforms introduce new affordances for dynamic and adaptive news framing. Edits to news headlines can refocus audience attention, add or remove emotional language, and shift the framing of events in subtle yet impactful ways. What types of media bias are editorialized in and out of news headlines, and how can they be systematically identified? This study introduces the MediaSpin dataset, the first to characterize the bias in how prominent news outlets editorialize news headlines after publication. The dataset includes 78,910 pairs of headlines annotated with 13 distinct types of media bias, using human-supervised LLM labeling. We discuss the linguistic insights it affords and show its applications for bias prediction and user behavior analysis.