Scaling Truth: The Confidence Paradox in AI Fact-Checking

作者: Ihsan A. Qazi, Zohaib Khan, Abdullah Ghani, Agha A. Raza, Zafar A. Qazi, Wassay Sajjad, Ayesha Ali, Asher Javaid, Muhammad Abdullah Sohail, Abdul H. Azeemi

分类: cs.SI, cs.AI, cs.CL, cs.CY

发布日期: 2025-09-10

备注: 65 pages, 26 figures, 6 tables

💡 一句话要点

揭示AI事实核查中的置信度悖论：小模型高置信度但低准确率

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 事实核查 大型语言模型 置信度悖论 多语言 信息公平

📋 核心要点

现有事实核查方法难以规模化，且大型语言模型在全球范围内的有效性存在不确定性。
论文通过系统评估不同规模和架构的LLM，揭示了模型置信度与准确率之间的悖论现象。
实验表明，小模型高置信度但低准确率，且非英语和全球南方内容性能差距显著。

📝 摘要（中文）

错误信息的泛滥凸显了对可扩展且可靠的事实核查解决方案的需求。大型语言模型（LLMs）在自动化事实验证方面展现出潜力，但它们在全球范围内的有效性仍不确定。本研究系统地评估了九个已建立的LLM（包括开源/闭源、不同规模、多样架构、基于推理的模型），使用了来自47种语言的174个专业事实核查组织先前评估的5000条声明。该方法测试了模型在训练截止日期之后发布的声明上的泛化能力，以及模仿公民和专业事实核查员交互的四种提示策略，并以超过24万条人工标注作为ground truth。研究结果揭示了一种类似于邓宁-克鲁格效应的令人担忧的模式：较小的、易于访问的模型表现出高置信度，但准确率较低，而较大的模型表现出较高的准确率，但置信度较低。这可能会导致信息验证中的系统性偏差，因为资源受限的组织通常使用较小的模型。非英语语言和来自全球南方的主张的性能差距最为明显，有可能扩大现有的信息不平等。这些结果为未来的研究建立了一个多语言基准，并为旨在确保公平获得可信的AI辅助事实核查的政策提供了证据基础。

🔬 方法详解

问题定义：论文旨在解决大型语言模型在多语言环境下进行事实核查时，准确性和置信度不匹配的问题。现有方法，特别是依赖小型模型的组织，可能因为模型的高置信度而误判，导致信息偏差和不平等。

核心思路：论文的核心思路是通过大规模、多语言的实验评估，揭示不同规模和类型的LLM在事实核查任务中的置信度与准确率之间的关系，特别是关注小模型的高置信度低准确率现象。通过分析模型在不同语言和来源数据上的表现，找出潜在的偏差和局限性。

技术框架：该研究的技术框架主要包括以下几个阶段：1) 数据收集：收集来自47种语言的5000条已由专业事实核查组织评估的声明。2) 模型选择：选择九个具有代表性的LLM，涵盖开源/闭源、不同规模和架构。3) 提示策略：设计四种提示策略，模拟公民和专业事实核查员的交互方式。4) 模型评估：使用24万条人工标注作为ground truth，评估模型在不同语言和来源数据上的准确率和置信度。5) 结果分析：分析模型性能与规模、语言、数据来源等因素之间的关系，揭示置信度悖论。

关键创新：论文最重要的技术创新点在于揭示了AI事实核查中的“置信度悖论”，即小型模型往往表现出高置信度但准确率较低，而大型模型则相反。这种现象可能会导致信息验证中的系统性偏差，尤其是在资源有限的组织中。此外，该研究还构建了一个多语言的事实核查基准，为未来的研究提供了数据基础。

关键设计：论文的关键设计包括：1) 多语言数据集：涵盖47种语言，确保评估的全面性。2) 多样化的模型选择：包括不同规模、架构和来源的LLM，以评估不同模型的性能。3) 多种提示策略：模拟真实世界的事实核查场景，提高评估的可靠性。4) 大规模人工标注：提供高质量的ground truth，确保评估的准确性。

📊 实验亮点

研究发现，小型模型在事实核查任务中表现出高置信度但低准确率，大型模型则相反。非英语语言和来自全球南方的主张的性能差距最为明显。这些结果表明，当前AI事实核查系统可能存在偏差，需要进一步改进。

🎯 应用场景

该研究成果可应用于开发更可靠、公平的AI辅助事实核查系统，尤其是在资源有限的地区和非英语语种环境中。有助于提高公众对信息的辨别能力，减少虚假信息传播，促进信息公平。未来可用于指导政策制定，确保AI技术在信息验证领域的公平性和可信度。

📄 摘要（原文）

The rise of misinformation underscores the need for scalable and reliable fact-checking solutions. Large language models (LLMs) hold promise in automating fact verification, yet their effectiveness across global contexts remains uncertain. We systematically evaluate nine established LLMs across multiple categories (open/closed-source, multiple sizes, diverse architectures, reasoning-based) using 5,000 claims previously assessed by 174 professional fact-checking organizations across 47 languages. Our methodology tests model generalizability on claims postdating training cutoffs and four prompting strategies mirroring both citizen and professional fact-checker interactions, with over 240,000 human annotations as ground truth. Findings reveal a concerning pattern resembling the Dunning-Kruger effect: smaller, accessible models show high confidence despite lower accuracy, while larger models demonstrate higher accuracy but lower confidence. This risks systemic bias in information verification, as resource-constrained organizations typically use smaller models. Performance gaps are most pronounced for non-English languages and claims originating from the Global South, threatening to widen existing information inequalities. These results establish a multilingual benchmark for future research and provide an evidence base for policy aimed at ensuring equitable access to trustworthy, AI-assisted fact-checking.

Scaling Truth: The Confidence Paradox in AI Fact-Checking

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册