RealFactBench: A Benchmark for Evaluating Large Language Models in Real-World Fact-Checking
作者: Shuo Yang, Yuqin Dai, Guoqing Wang, Xinran Zheng, Jinfeng Xu, Jinze Li, Zhenzhe Ying, Weiqiang Wang, Edith C. H. Ngai
分类: cs.CL, cs.AI
发布日期: 2025-06-14
🔗 代码/项目: GITHUB
💡 一句话要点
提出RealFactBench,用于评估大语言模型在真实世界的事实核查能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 事实核查 大型语言模型 多模态学习 基准测试 知识验证
📋 核心要点
- 现有事实核查基准难以评估LLMs和MLLMs在真实场景下的能力,尤其是在处理多模态信息和不确定性方面。
- RealFactBench旨在提供一个更全面的评估平台,包含多模态内容和未知率(UnR)指标,以更真实地反映实际应用场景。
- 实验结果揭示了现有LLMs和MLLMs在真实世界事实核查中的不足,为未来研究提供了方向,并强调了UnR指标的重要性。
📝 摘要(中文)
大型语言模型(LLMs)在推理、证据检索和解释生成方面具有巨大潜力,有望推动事实核查的发展。然而,现有的基准测试无法全面评估LLMs和多模态大型语言模型(MLLMs)在真实世界中的错误信息场景下的表现。为了弥补这一差距,我们推出了RealFactBench,这是一个综合性的基准,旨在评估LLMs和MLLMs在各种真实世界任务中的事实核查能力,包括知识验证、谣言检测和事件验证。RealFactBench包含来自权威来源的6K高质量声明,涵盖多模态内容和不同领域。我们的评估框架进一步引入了未知率(UnR)指标,从而能够更细致地评估模型处理不确定性的能力,并在过度保守和过度自信之间取得平衡。对7个代表性LLMs和4个MLLMs的大量实验揭示了它们在真实世界事实核查中的局限性,并为进一步研究提供了有价值的见解。RealFactBench已在https://github.com/kalendsyang/RealFactBench.git上公开。
🔬 方法详解
问题定义:现有事实核查基准数据集通常规模有限,缺乏多样性,并且很少包含多模态信息。此外,它们通常忽略了模型处理不确定性的能力,导致模型在实际应用中表现不佳。因此,需要一个更全面、更真实的基准来评估LLMs和MLLMs的事实核查能力。
核心思路:RealFactBench的核心思路是构建一个包含多样化、高质量声明的数据集,这些声明来自权威来源,涵盖多模态内容和不同领域。同时,引入未知率(UnR)指标来评估模型处理不确定性的能力,从而更全面地评估模型在真实世界场景下的表现。
技术框架:RealFactBench的整体框架包括以下几个主要部分:1) 数据收集:从权威来源收集包含文本和图像的多模态声明。2) 数据标注:对收集到的声明进行标注,确定其真实性。3) 评估指标:使用准确率、召回率、F1值以及新提出的未知率(UnR)指标来评估模型性能。4) 模型评估:在RealFactBench上评估各种LLMs和MLLMs的事实核查能力。
关键创新:RealFactBench的关键创新在于:1) 数据集的多样性和真实性:数据集包含来自权威来源的6K高质量声明,涵盖多模态内容和不同领域。2) 评估指标的改进:引入了未知率(UnR)指标,能够更细致地评估模型处理不确定性的能力。
关键设计:未知率(UnR)指标的设计旨在平衡模型在过度保守和过度自信之间的表现。UnR的计算方式是基于模型预测为“未知”的样本比例。数据集包含6K个声明,涵盖知识验证、谣言检测和事件验证等任务。具体的数据标注和清洗流程未知。
🖼️ 关键图片
📊 实验亮点
实验结果表明,现有的LLMs和MLLMs在RealFactBench上的表现仍有很大提升空间,尤其是在处理多模态信息和不确定性方面。引入UnR指标后,可以更清晰地观察到模型在保守性和自信度之间的权衡。具体性能数据和对比基线未在摘要中明确给出,但强调了该基准对未来研究的价值。
🎯 应用场景
RealFactBench可用于评估和改进LLMs和MLLMs在各种实际应用中的事实核查能力,例如新闻验证、社交媒体内容审核、医疗信息验证等。该基准的推出将促进相关领域的研究,并有助于开发更可靠、更值得信赖的AI系统,从而减少错误信息传播带来的负面影响。
📄 摘要(原文)
Large Language Models (LLMs) hold significant potential for advancing fact-checking by leveraging their capabilities in reasoning, evidence retrieval, and explanation generation. However, existing benchmarks fail to comprehensively evaluate LLMs and Multimodal Large Language Models (MLLMs) in realistic misinformation scenarios. To bridge this gap, we introduce RealFactBench, a comprehensive benchmark designed to assess the fact-checking capabilities of LLMs and MLLMs across diverse real-world tasks, including Knowledge Validation, Rumor Detection, and Event Verification. RealFactBench consists of 6K high-quality claims drawn from authoritative sources, encompassing multimodal content and diverse domains. Our evaluation framework further introduces the Unknown Rate (UnR) metric, enabling a more nuanced assessment of models' ability to handle uncertainty and balance between over-conservatism and over-confidence. Extensive experiments on 7 representative LLMs and 4 MLLMs reveal their limitations in real-world fact-checking and offer valuable insights for further research. RealFactBench is publicly available at https://github.com/kalendsyang/RealFactBench.git.