Profiling News Media for Factuality and Bias Using LLMs and the Fact-Checking Methodology of Human Experts

📄 arXiv: 2506.12552v1 📥 PDF

作者: Zain Muhammad Mujahid, Dilshod Azizov, Maha Tufail Agro, Preslav Nakov

分类: cs.CL, cs.AI, cs.LG

发布日期: 2025-06-14

备注: Accepted to Findings of the Association for Computational Linguistics (ACL) 2025

🔗 代码/项目: GITHUB


💡 一句话要点

提出一种基于LLM和事实核查方法的新闻媒体真实性和偏见评估框架

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 新闻媒体评估 事实核查 大型语言模型 政治偏见 提示工程

📋 核心要点

  1. 现有事实核查方法在处理信息有限的新兴声明时面临挑战,难以快速评估新闻媒体的整体可靠性和政治偏见。
  2. 该论文提出一种新方法,模拟专业事实核查员的标准,利用LLM对新闻媒体的事实性和政治偏见进行评估。
  3. 实验结果表明,该方法在多个LLM上均优于现有基线,并进行了详细的错误分析和消融研究,验证了方法的有效性。

📝 摘要(中文)

在网络错误信息和虚假信息泛滥的时代,帮助读者理解他们阅读的内容至关重要。目前的重要工作依赖于人工或自动的事实核查,但对于信息有限的新兴声明来说,这可能具有挑战性。针对这种情况,可以评估声明来源的可靠性和政治偏见,即对整个新闻媒体进行表征,而不是针对单个声明或文章。这是一个重要但研究不足的方向。与以往关注语言和社会背景的工作不同,我们不分析单个文章或社交媒体中的信息。相反,我们提出了一种新颖的方法,该方法模拟专业事实核查人员用于评估整个媒体的事实性和政治偏见的标准。具体来说,我们基于这些标准设计了各种提示,并从大型语言模型(LLM)中获取响应,然后对其进行聚合以进行预测。通过使用多个LLM进行的大量实验,我们展示了相对于强大基线的显著改进,并对媒体受欢迎程度和地区对模型性能的影响进行了深入的错误分析。此外,我们进行了一项消融研究,以突出显示我们数据集中有助于这些改进的关键组成部分。为了方便未来的研究,我们在https://github.com/mbzuai-nlp/llm-media-profiling上发布了我们的数据集和代码。

🔬 方法详解

问题定义:该论文旨在解决新闻媒体的事实性和政治偏见评估问题。现有方法主要集中在单个文章或社交媒体信息的事实核查,忽略了对整个新闻媒体的整体评估。对于新兴的、信息有限的声明,现有方法难以快速有效地评估其来源的可靠性。

核心思路:该论文的核心思路是模拟专业事实核查员评估新闻媒体的标准,利用大型语言模型(LLM)的知识和推理能力,通过设计合适的提示(prompts)来引导LLM对新闻媒体进行评估。通过聚合LLM的响应,可以得到对新闻媒体事实性和政治偏见的综合评估。

技术框架:该方法主要包含以下几个阶段:1) 定义事实核查员评估新闻媒体的标准;2) 基于这些标准设计针对LLM的提示;3) 使用LLM生成对新闻媒体的评估结果;4) 聚合LLM的响应,得到最终的评估结果;5) 对模型性能进行评估和分析。

关键创新:该方法的主要创新在于:1) 提出了一种模拟专业事实核查员评估标准的方法,用于评估新闻媒体的事实性和政治偏见;2) 利用LLM的知识和推理能力,通过提示工程(prompt engineering)来引导LLM进行评估,避免了对单个文章或社交媒体信息的分析;3) 提供了一个新的数据集和代码,方便未来的研究。

关键设计:论文的关键设计在于提示的设计。提示需要能够有效地引导LLM理解事实核查员的标准,并生成准确的评估结果。具体的提示设计细节在论文中没有详细描述,但可以推测其可能包含诸如“该媒体是否经常发布错误信息?”、“该媒体的政治立场是什么?”等问题。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在多个LLM上均取得了显著的性能提升,优于现有的基线方法。论文还进行了详细的错误分析,揭示了媒体受欢迎程度和地区对模型性能的影响。消融研究表明,数据集的关键组成部分对性能提升有重要贡献。

🎯 应用场景

该研究成果可应用于自动化新闻媒体信誉评估、虚假信息检测、舆情分析等领域。通过快速评估新闻来源的可靠性和政治倾向,帮助读者更好地理解新闻内容,减少虚假信息的影响,并为决策者提供参考。

📄 摘要(原文)

In an age characterized by the proliferation of mis- and disinformation online, it is critical to empower readers to understand the content they are reading. Important efforts in this direction rely on manual or automatic fact-checking, which can be challenging for emerging claims with limited information. Such scenarios can be handled by assessing the reliability and the political bias of the source of the claim, i.e., characterizing entire news outlets rather than individual claims or articles. This is an important but understudied research direction. While prior work has looked into linguistic and social contexts, we do not analyze individual articles or information in social media. Instead, we propose a novel methodology that emulates the criteria that professional fact-checkers use to assess the factuality and political bias of an entire outlet. Specifically, we design a variety of prompts based on these criteria and elicit responses from large language models (LLMs), which we aggregate to make predictions. In addition to demonstrating sizable improvements over strong baselines via extensive experiments with multiple LLMs, we provide an in-depth error analysis of the effect of media popularity and region on model performance. Further, we conduct an ablation study to highlight the key components of our dataset that contribute to these improvements. To facilitate future research, we released our dataset and code at https://github.com/mbzuai-nlp/llm-media-profiling.