Towards Automated Fact-Checking of Real-World Claims: Exploring Task Formulation and Assessment with LLMs

📄 arXiv: 2502.08909v1 📥 PDF

作者: Premtim Sahitaj, Iffat Maab, Junichi Yamagishi, Jawan Kolanowski, Sebastian Möller, Vera Schmitt

分类: cs.CL, cs.AI

发布日期: 2025-02-13


💡 一句话要点

利用LLM进行自动化事实核查:任务形式与评估方法研究

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自动化事实核查 大型语言模型 信息检索 自然语言处理 Llama-3 TIGERScore 证据整合

📋 核心要点

  1. 传统事实核查依赖人工,效率低且成本高昂,难以应对海量信息。
  2. 利用LLM进行自动化事实核查,通过检索证据并生成解释,实现更高效的验证。
  3. 实验表明,更大的LLM在分类准确性和理由质量上优于小型LLM,证据整合进一步提升性能。

📝 摘要(中文)

为了应对日益增长的错误信息,事实核查变得至关重要。传统的事实核查依赖于人工分析来验证声明,但这种方法速度慢且资源密集。本研究通过使用大型语言模型(LLM)在多种标注方案(二元、三类、五类)下建立自动化事实核查(AFC)的基线比较。同时,通过在一个结构化的设置中整合分析、结果分类和解释,扩展了传统的声明验证,为现实世界的声明提供全面的理由。我们使用通过限制性网络搜索检索到的证据,在从PolitiFact(2007-2024)收集的17,856个声明上评估了不同规模(3B、8B、70B)的Llama-3模型。我们使用TIGERScore作为无参考评估指标来评估理由的质量。结果表明,在没有微调的情况下,较大的LLM在分类准确性和理由质量方面始终优于较小的LLM。我们发现,在单次(one-shot)场景中,较小的LLM提供了与具有大上下文尺寸的微调小型语言模型(SLM)相当的任务性能,而较大的LLM始终超过它们。证据整合提高了所有模型的性能,其中较大的LLM受益最大。区分细微的标签仍然具有挑战性,强调需要进一步探索标签方案并与证据对齐。我们的研究结果证明了检索增强的LLM在自动化事实核查中的潜力。

🔬 方法详解

问题定义:论文旨在解决传统事实核查方法效率低下、资源消耗大的问题,即如何自动化地验证现实世界中的声明。现有方法依赖人工分析,速度慢且难以扩展,无法有效应对日益增长的错误信息。

核心思路:论文的核心思路是利用大型语言模型(LLM)的强大能力,结合信息检索技术,实现自动化的事实核查。通过检索相关证据,并让LLM分析证据、分类结果并生成解释,从而提供对声明的全面验证。这样可以显著提高事实核查的效率和可扩展性。

技术框架:整体框架包含以下几个主要阶段:1) 声明收集:从PolitiFact等平台收集现实世界的声明。2) 证据检索:使用限制性网络搜索检索与声明相关的证据。3) LLM分析:使用LLM分析检索到的证据,并进行结果分类(例如,真、假、部分真等)。4) 解释生成:LLM生成对分类结果的解释,提供验证声明的理由。5) 评估:使用TIGERScore等指标评估LLM生成的解释的质量和分类的准确性。

关键创新:论文的关键创新在于将LLM应用于自动化事实核查,并探索了不同的标注方案和模型规模对性能的影响。此外,论文还引入了结构化的设置,将分析、结果分类和解释整合在一起,提供对声明的全面验证。使用TIGERScore进行无参考评估也是一个创新点。

关键设计:论文评估了不同规模的Llama-3模型(3B、8B、70B),并比较了不同标注方案(二元、三类、五类)下的性能。使用了限制性网络搜索来检索证据,以模拟更真实的应用场景。使用TIGERScore作为无参考评估指标来评估LLM生成的解释的质量。没有提及具体的损失函数或网络结构设计,因为主要关注的是LLM的zero-shot或one-shot能力。

📊 实验亮点

实验结果表明,更大的LLM(如70B Llama-3)在分类准确性和理由质量方面始终优于较小的LLM。在单次(one-shot)场景中,较小的LLM可以达到与微调的SLM相当的性能,而较大的LLM则超越了它们。证据整合显著提高了所有模型的性能,尤其对大型LLM的提升更为明显。例如,70B Llama-3模型在五分类任务上的准确率显著高于其他模型。

🎯 应用场景

该研究成果可应用于新闻媒体、社交平台等领域,用于自动识别和标记虚假信息,提高信息的可信度。有助于减少错误信息的传播,维护社会稳定。未来可进一步发展为更智能、更可靠的事实核查系统,为公众提供更准确的信息服务。

📄 摘要(原文)

Fact-checking is necessary to address the increasing volume of misinformation. Traditional fact-checking relies on manual analysis to verify claims, but it is slow and resource-intensive. This study establishes baseline comparisons for Automated Fact-Checking (AFC) using Large Language Models (LLMs) across multiple labeling schemes (binary, three-class, five-class) and extends traditional claim verification by incorporating analysis, verdict classification, and explanation in a structured setup to provide comprehensive justifications for real-world claims. We evaluate Llama-3 models of varying sizes (3B, 8B, 70B) on 17,856 claims collected from PolitiFact (2007-2024) using evidence retrieved via restricted web searches. We utilize TIGERScore as a reference-free evaluation metric to score the justifications. Our results show that larger LLMs consistently outperform smaller LLMs in classification accuracy and justification quality without fine-tuning. We find that smaller LLMs in a one-shot scenario provide comparable task performance to fine-tuned Small Language Models (SLMs) with large context sizes, while larger LLMs consistently surpass them. Evidence integration improves performance across all models, with larger LLMs benefiting most. Distinguishing between nuanced labels remains challenging, emphasizing the need for further exploration of labeling schemes and alignment with evidences. Our findings demonstrate the potential of retrieval-augmented AFC with LLMs.