Scaling Truth: The Confidence Paradox in AI Fact-Checking

📄 arXiv: 2509.08803v1 📥 PDF

作者: Ihsan A. Qazi, Zohaib Khan, Abdullah Ghani, Agha A. Raza, Zafar A. Qazi, Wassay Sajjad, Ayesha Ali, Asher Javaid, Muhammad Abdullah Sohail, Abdul H. Azeemi

分类: cs.SI, cs.AI, cs.CL, cs.CY

发布日期: 2025-09-10

备注: 65 pages, 26 figures, 6 tables


💡 一句话要点

提出多语言基准以解决AI事实核查中的信心悖论问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 事实核查 大型语言模型 多语言处理 系统性偏见 信息不平等 人工智能 模型评估 虚假信息

📋 核心要点

  1. 现有的事实核查方法在处理多语言和全球南方的声明时存在显著的性能差距,尤其是小型模型的高信心与低准确性之间的矛盾。
  2. 本文提出了一种系统评估方法,比较不同规模和架构的LLMs在多语言环境下的表现,旨在提高事实核查的可靠性和可扩展性。
  3. 实验结果显示,较小的模型在准确性上表现不佳,但信心较高,而较大的模型则在准确性上表现优异但信心不足,这揭示了潜在的系统性偏见。

📝 摘要(中文)

随着虚假信息的增加,迫切需要可扩展且可靠的事实核查解决方案。大型语言模型(LLMs)在自动化事实验证方面展现出潜力,但其在全球范围内的有效性尚不确定。本文系统评估了九种已建立的LLMs,涵盖多个类别(开源/闭源、多种规模、多样架构、基于推理),使用了5,000个由174个专业事实核查组织评估的声明,涉及47种语言。研究发现,小型模型尽管准确性较低,却表现出较高的信心,而大型模型则表现出较高的准确性但信心较低,这可能导致信息核查中的系统性偏见。研究结果为未来研究建立了多语言基准,并为政策制定提供了证据基础,以确保公平获取可信赖的AI辅助事实核查。

🔬 方法详解

问题定义:本文旨在解决AI事实核查中存在的信心悖论,尤其是小型模型在准确性不足的情况下却表现出高信心的问题。现有方法在多语言和全球南方的声明处理上存在显著不足。

核心思路:通过系统评估九种不同的LLMs,分析其在多语言环境下的表现,特别关注模型的信心与准确性之间的关系,以期为未来的研究提供基准和指导。

技术框架:研究采用了多层次的评估框架,首先收集了5,000个声明及其对应的人工标注数据,然后对不同模型进行测试,使用四种不同的提示策略模拟公民和专业事实核查员的互动。

关键创新:本文的创新点在于揭示了小型模型与大型模型在信心与准确性之间的反向关系,尤其是在多语言和全球南方的背景下,提出了新的多语言基准。

关键设计:研究中使用了240,000个人工标注作为真实数据,采用了多种模型架构和推理策略,确保评估的全面性和准确性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,小型模型在信心上高达80%,但准确性仅为50%;而大型模型的准确性可达75%,但信心仅为60%。这种信心与准确性之间的反向关系揭示了AI事实核查中的潜在偏见,尤其是在非英语语言和全球南方的声明中表现得尤为明显。

🎯 应用场景

该研究的潜在应用领域包括新闻媒体、社交平台和教育机构等,能够帮助这些组织在信息核查中选择合适的AI工具,从而提高信息的准确性和可信度。未来,该研究可能影响政策制定,推动公平获取AI辅助事实核查的资源。

📄 摘要(原文)

The rise of misinformation underscores the need for scalable and reliable fact-checking solutions. Large language models (LLMs) hold promise in automating fact verification, yet their effectiveness across global contexts remains uncertain. We systematically evaluate nine established LLMs across multiple categories (open/closed-source, multiple sizes, diverse architectures, reasoning-based) using 5,000 claims previously assessed by 174 professional fact-checking organizations across 47 languages. Our methodology tests model generalizability on claims postdating training cutoffs and four prompting strategies mirroring both citizen and professional fact-checker interactions, with over 240,000 human annotations as ground truth. Findings reveal a concerning pattern resembling the Dunning-Kruger effect: smaller, accessible models show high confidence despite lower accuracy, while larger models demonstrate higher accuracy but lower confidence. This risks systemic bias in information verification, as resource-constrained organizations typically use smaller models. Performance gaps are most pronounced for non-English languages and claims originating from the Global South, threatening to widen existing information inequalities. These results establish a multilingual benchmark for future research and provide an evidence base for policy aimed at ensuring equitable access to trustworthy, AI-assisted fact-checking.