Scaling Truth: The Confidence Paradox in AI Fact-Checking
作者: Ihsan A. Qazi, Zohaib Khan, Abdullah Ghani, Agha A. Raza, Zafar A. Qazi, Wassay Sajjad, Ayesha Ali, Asher Javaid, Muhammad Abdullah Sohail, Abdul H. Azeemi
分类: cs.SI, cs.AI, cs.CL, cs.CY
发布日期: 2025-09-10
备注: 65 pages, 26 figures, 6 tables
💡 一句话要点
揭示AI事实核查中的置信度悖论:小模型高置信度但低准确率
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 事实核查 大型语言模型 置信度悖论 多语言 信息公平
📋 核心要点
- 现有事实核查方法难以规模化,且大型语言模型在全球范围内的有效性存在不确定性。
- 论文通过系统评估不同规模和架构的LLM,揭示了模型置信度与准确率之间的悖论现象。
- 实验表明,小模型高置信度但低准确率,且非英语和全球南方内容性能差距显著。
📝 摘要(中文)
错误信息的泛滥凸显了对可扩展且可靠的事实核查解决方案的需求。大型语言模型(LLMs)在自动化事实验证方面展现出潜力,但它们在全球范围内的有效性仍不确定。本研究系统地评估了九个已建立的LLM(包括开源/闭源、不同规模、多样架构、基于推理的模型),使用了来自47种语言的174个专业事实核查组织先前评估的5000条声明。该方法测试了模型在训练截止日期之后发布的声明上的泛化能力,以及模仿公民和专业事实核查员交互的四种提示策略,并以超过24万条人工标注作为ground truth。研究结果揭示了一种类似于邓宁-克鲁格效应的令人担忧的模式:较小的、易于访问的模型表现出高置信度,但准确率较低,而较大的模型表现出较高的准确率,但置信度较低。这可能会导致信息验证中的系统性偏差,因为资源受限的组织通常使用较小的模型。非英语语言和来自全球南方的主张的性能差距最为明显,有可能扩大现有的信息不平等。这些结果为未来的研究建立了一个多语言基准,并为旨在确保公平获得可信的AI辅助事实核查的政策提供了证据基础。
🔬 方法详解
问题定义:论文旨在解决大型语言模型在多语言环境下进行事实核查时,准确性和置信度不匹配的问题。现有方法,特别是依赖小型模型的组织,可能因为模型的高置信度而误判,导致信息偏差和不平等。
核心思路:论文的核心思路是通过大规模、多语言的实验评估,揭示不同规模和类型的LLM在事实核查任务中的置信度与准确率之间的关系,特别是关注小模型的高置信度低准确率现象。通过分析模型在不同语言和来源数据上的表现,找出潜在的偏差和局限性。
技术框架:该研究的技术框架主要包括以下几个阶段:1) 数据收集:收集来自47种语言的5000条已由专业事实核查组织评估的声明。2) 模型选择:选择九个具有代表性的LLM,涵盖开源/闭源、不同规模和架构。3) 提示策略:设计四种提示策略,模拟公民和专业事实核查员的交互方式。4) 模型评估:使用24万条人工标注作为ground truth,评估模型在不同语言和来源数据上的准确率和置信度。5) 结果分析:分析模型性能与规模、语言、数据来源等因素之间的关系,揭示置信度悖论。
关键创新:论文最重要的技术创新点在于揭示了AI事实核查中的“置信度悖论”,即小型模型往往表现出高置信度但准确率较低,而大型模型则相反。这种现象可能会导致信息验证中的系统性偏差,尤其是在资源有限的组织中。此外,该研究还构建了一个多语言的事实核查基准,为未来的研究提供了数据基础。
关键设计:论文的关键设计包括:1) 多语言数据集:涵盖47种语言,确保评估的全面性。2) 多样化的模型选择:包括不同规模、架构和来源的LLM,以评估不同模型的性能。3) 多种提示策略:模拟真实世界的事实核查场景,提高评估的可靠性。4) 大规模人工标注:提供高质量的ground truth,确保评估的准确性。
📊 实验亮点
研究发现,小型模型在事实核查任务中表现出高置信度但低准确率,大型模型则相反。非英语语言和来自全球南方的主张的性能差距最为明显。这些结果表明,当前AI事实核查系统可能存在偏差,需要进一步改进。
🎯 应用场景
该研究成果可应用于开发更可靠、公平的AI辅助事实核查系统,尤其是在资源有限的地区和非英语语种环境中。有助于提高公众对信息的辨别能力,减少虚假信息传播,促进信息公平。未来可用于指导政策制定,确保AI技术在信息验证领域的公平性和可信度。
📄 摘要(原文)
The rise of misinformation underscores the need for scalable and reliable fact-checking solutions. Large language models (LLMs) hold promise in automating fact verification, yet their effectiveness across global contexts remains uncertain. We systematically evaluate nine established LLMs across multiple categories (open/closed-source, multiple sizes, diverse architectures, reasoning-based) using 5,000 claims previously assessed by 174 professional fact-checking organizations across 47 languages. Our methodology tests model generalizability on claims postdating training cutoffs and four prompting strategies mirroring both citizen and professional fact-checker interactions, with over 240,000 human annotations as ground truth. Findings reveal a concerning pattern resembling the Dunning-Kruger effect: smaller, accessible models show high confidence despite lower accuracy, while larger models demonstrate higher accuracy but lower confidence. This risks systemic bias in information verification, as resource-constrained organizations typically use smaller models. Performance gaps are most pronounced for non-English languages and claims originating from the Global South, threatening to widen existing information inequalities. These results establish a multilingual benchmark for future research and provide an evidence base for policy aimed at ensuring equitable access to trustworthy, AI-assisted fact-checking.