LLMs left, right, and center: Assessing GPT's capabilities to label political bias from web domains

📄 arXiv: 2407.14344v2 📥 PDF

作者: Raphael Hernandes, Giulio Corsi

分类: cs.CL, cs.AI, cs.CY

发布日期: 2024-07-19 (更新: 2024-10-22)

备注: 12 pages, 4 figures


💡 一句话要点

评估GPT-4对新闻网站政治倾向的标注能力,揭示其局限与潜在偏见。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 政治倾向分析 新闻网站 GPT-4 偏见评估

📋 核心要点

  1. 现有研究缺乏对大型语言模型(LLM)在政治倾向标注任务中能力的系统评估,尤其是在新闻领域。
  2. 本研究利用GPT-4,通过分析新闻网站URL,评估其对政治倾向的分类能力,并与人工评级进行对比。
  3. 实验表明GPT-4与人工评级具有较高相关性,但存在拒评率高、对冷门网站评估不准以及结果略微偏左等问题。

📝 摘要(中文)

本研究旨在评估OpenAI的GPT-4大型语言模型仅基于URL对新闻来源的政治倾向进行分类的准确性。考虑到政治标签的主观性,研究通常采用第三方偏见评级(如Ad Fontes Media、AllSides和Media Bias/Fact Check (MBFC))来分析新闻来源的多样性。本研究旨在确定GPT-4是否可以在七度量表(“极左”到“极右”)上复制这些人工评级。分析将GPT-4的分类与MBFC的分类进行比较,并使用Open PageRank分数控制网站的受欢迎程度。结果显示,GPT-4和MBFC的评级之间存在高度相关性(Spearman's ρ= 0.89,n = 5,877,p < 0.001),表明该模型具有潜在的可靠性。然而,GPT-4放弃了对大约$ rac{2}{3}$数据集的分类。它更倾向于放弃对不太受欢迎的网站的评级,这些网站的评估准确性也较低。LLM倾向于避免将MBFC认为是中间派的来源进行分类,从而导致更加两极分化的输出。最后,该分析显示,与MBFC相比,GPT的分类略微偏左。因此,虽然本文表明GPT-4可以成为一种可扩展、经济高效的新闻网站政治偏见分类工具,但其使用应作为人工判断的补充,以减轻偏见。

🔬 方法详解

问题定义:本研究旨在评估大型语言模型(LLM),特别是GPT-4,在自动识别和分类新闻网站政治倾向方面的能力。现有方法依赖于人工标注或简单的规则,成本高昂且难以扩展。此外,现有方法缺乏对LLM在这一特定任务中表现的系统性评估,尤其是在处理长尾分布的新闻网站时。

核心思路:核心思路是利用GPT-4的强大语言理解和生成能力,直接从新闻网站的URL推断其政治倾向。通过将GPT-4的输出与人工标注的基准数据集(MBFC)进行比较,评估其准确性、可靠性和潜在的偏见。这种方法旨在探索LLM在自动化政治倾向分析方面的潜力。

技术框架:研究流程主要包括以下几个步骤:1) 数据收集:收集包含新闻网站URL和MBFC政治倾向评级的数据集。2) GPT-4标注:使用GPT-4对数据集中的URL进行政治倾向标注,输出七度量表上的评级(“极左”到“极右”)。3) 结果比较:将GPT-4的标注结果与MBFC的评级进行比较,计算相关性系数(Spearman's ρ)。4) 误差分析:分析GPT-4的拒评模式、对不同受欢迎程度网站的评估准确性以及潜在的偏见。

关键创新:本研究的关键创新在于首次系统性地评估了GPT-4在新闻网站政治倾向标注任务中的能力。与传统方法相比,GPT-4无需人工干预即可自动完成标注,具有更高的可扩展性和效率。此外,研究还深入分析了GPT-4的局限性,包括拒评率高、对冷门网站评估不准以及潜在的偏见。

关键设计:研究的关键设计包括:1) 使用MBFC作为人工标注的黄金标准,确保评估的客观性。2) 使用Open PageRank分数控制网站的受欢迎程度,分析GPT-4对不同类型网站的评估准确性。3) 采用Spearman's ρ相关系数评估GPT-4与MBFC评级之间的一致性。4) 对GPT-4的拒评模式和潜在偏见进行深入分析,揭示其局限性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,GPT-4与MBFC的政治倾向评级之间存在高度相关性(Spearman's ρ= 0.89,n = 5,877,p < 0.001),表明GPT-4在一定程度上可以复制人工评级。然而,GPT-4的拒评率较高(约$ rac{2}{3}$),且对不太受欢迎的网站评估准确性较低,并存在轻微的左倾偏见。

🎯 应用场景

该研究成果可应用于自动化新闻内容分析、舆情监控、信息过滤和个性化推荐等领域。通过利用LLM自动识别新闻网站的政治倾向,可以帮助用户更好地理解信息来源,避免受到政治宣传的影响。此外,该研究还可以为新闻媒体提供一种低成本、高效率的政治倾向评估工具,辅助其进行内容审核和平衡报道。

📄 摘要(原文)

This research investigates whether OpenAI's GPT-4, a state-of-the-art large language model, can accurately classify the political bias of news sources based solely on their URLs. Given the subjective nature of political labels, third-party bias ratings like those from Ad Fontes Media, AllSides, and Media Bias/Fact Check (MBFC) are often used in research to analyze news source diversity. This study aims to determine if GPT-4 can replicate these human ratings on a seven-degree scale ("far-left" to "far-right"). The analysis compares GPT-4's classifications against MBFC's, and controls for website popularity using Open PageRank scores. Findings reveal a high correlation ($\text{Spearman's } ρ= .89$, $n = 5,877$, $p < 0.001$) between GPT-4's and MBFC's ratings, indicating the model's potential reliability. However, GPT-4 abstained from classifying approximately $\frac{2}{3}$ of the dataset. It is more likely to abstain from rating unpopular websites, which also suffer from less accurate assessments. The LLM tends to avoid classifying sources that MBFC considers to be centrist, resulting in more polarized outputs. Finally, this analysis shows a slight leftward skew in GPT's classifications compared to MBFC's. Therefore, while this paper suggests that while GPT-4 can be a scalable, cost-effective tool for political bias classification of news websites, its use should be as a complement to human judgment to mitigate biases.