Evaluating open-source Large Language Models for automated fact-checking

📄 arXiv: 2503.05565v1 📥 PDF

作者: Nicolo' Fontana, Francesco Corso, Enrico Zuccolotto, Francesco Pierri

分类: cs.CY, cs.CL

发布日期: 2025-03-07

备注: Main: 10 pages, 13 figures. Supplementary Materials: 7 pages, 29 figures, 1 table ### This work has been submitted to the IEEE for possible publication. ###


💡 一句话要点

评估开源大语言模型在自动化事实核查中的能力与局限性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 事实核查 自动化 开源 信息验证

📋 核心要点

  1. 现有事实核查方法难以有效应对网络错误信息泛滥,自动化程度和准确性有待提升。
  2. 本研究探索利用开源大语言模型进行自动化事实核查,评估其在不同信息条件下的表现。
  3. 实验表明LLMs擅长识别声明与文章关联,验证已核实信息,但在确认事实新闻方面表现欠佳。

📝 摘要(中文)

在线错误信息的日益泛滥,提高了对自动化事实核查解决方案的需求。大型语言模型(LLMs)已成为辅助完成此任务的潜在工具,但其有效性仍不确定。本研究评估了各种开源LLMs的事实核查能力,重点关注它们在不同上下文信息水平下评估声明的能力。我们进行了三个关键实验:(1)评估LLMs是否可以识别声明和事实核查文章之间的语义关系;(2)评估模型在给定相关事实核查文章时验证声明的准确性;(3)测试LLMs在利用来自外部知识源(如Google和Wikipedia)的数据时的事实核查能力。我们的结果表明,LLMs在识别声明-文章连接和验证经过事实核查的故事方面表现良好,但在确认事实新闻方面表现不佳,在这方面,它们不如传统的微调模型(如RoBERTa)。此外,引入外部知识并没有显着提高LLMs的性能,这需要更具针对性的方法。我们的发现突出了LLMs在自动化事实核查中的潜力和局限性,强调需要在它们能够可靠地取代人工事实核查员之前进行进一步的改进。

🔬 方法详解

问题定义:论文旨在评估开源大型语言模型(LLMs)在自动化事实核查任务中的能力。现有方法,如人工核查,成本高昂且效率低下。传统机器学习模型虽然可以自动化核查,但在处理复杂语义和上下文信息方面存在局限性。LLMs被认为是潜在的解决方案,但其在事实核查方面的有效性尚未得到充分评估。

核心思路:论文的核心思路是系统性地评估不同开源LLMs在不同事实核查场景下的表现。通过设计不同的实验,考察LLMs在识别声明与文章关联、验证已核查信息以及利用外部知识源进行核查的能力。通过对比LLMs与传统模型的性能,揭示LLMs在事实核查任务中的优势与不足。

技术框架:研究主要包含三个实验阶段: 1. 语义关系识别:评估LLMs识别声明与事实核查文章之间语义关系的能力。 2. 文章辅助核查:评估LLMs在给定相关事实核查文章时,验证声明的准确性。 3. 外部知识辅助核查:评估LLMs在利用外部知识源(如Google和Wikipedia)的数据时的事实核查能力。

关键创新:该研究的关键创新在于系统性地评估了多种开源LLMs在不同事实核查场景下的性能。与以往研究不同,该研究不仅关注LLMs的准确性,还考察了其在不同信息条件下的表现,以及利用外部知识源的能力。此外,该研究还对比了LLMs与传统模型的性能,为选择合适的自动化事实核查方法提供了依据。

关键设计:研究中,LLMs被用作零样本或少样本学习器,直接对声明进行真假判断。在外部知识辅助核查实验中,研究人员使用了Google和Wikipedia作为外部知识源,并设计了相应的提示工程(prompt engineering)方法,引导LLMs利用这些知识源进行事实核查。具体的参数设置和损失函数取决于所使用的LLM的具体架构和训练方式,论文中未详细说明。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,LLMs在识别声明-文章连接和验证已核查信息方面表现良好,但在确认事实新闻方面不如RoBERTa等传统微调模型。引入外部知识源(如Google和Wikipedia)并没有显著提高LLMs的性能。这些结果揭示了LLMs在自动化事实核查中的潜力和局限性,为未来的研究方向提供了指导。

🎯 应用场景

该研究成果可应用于自动化新闻事实核查系统、社交媒体内容审核、虚假信息检测等领域。通过利用LLMs辅助事实核查,可以提高信息审核效率,减少人工成本,并有助于构建更健康的网络信息生态。未来,该研究可进一步扩展到多语言环境和更复杂的事实核查场景。

📄 摘要(原文)

The increasing prevalence of online misinformation has heightened the demand for automated fact-checking solutions. Large Language Models (LLMs) have emerged as potential tools for assisting in this task, but their effectiveness remains uncertain. This study evaluates the fact-checking capabilities of various open-source LLMs, focusing on their ability to assess claims with different levels of contextual information. We conduct three key experiments: (1) evaluating whether LLMs can identify the semantic relationship between a claim and a fact-checking article, (2) assessing models' accuracy in verifying claims when given a related fact-checking article, and (3) testing LLMs' fact-checking abilities when leveraging data from external knowledge sources such as Google and Wikipedia. Our results indicate that LLMs perform well in identifying claim-article connections and verifying fact-checked stories but struggle with confirming factual news, where they are outperformed by traditional fine-tuned models such as RoBERTa. Additionally, the introduction of external knowledge does not significantly enhance LLMs' performance, calling for more tailored approaches. Our findings highlight both the potential and limitations of LLMs in automated fact-checking, emphasizing the need for further refinements before they can reliably replace human fact-checkers.