Fact-checking AI-generated news reports: Can LLMs catch their own lies?
作者: Jiayi Yao, Haibo Sun, Nianwen Xue
分类: cs.CL
发布日期: 2025-03-24
💡 一句话要点
评估大语言模型对自身生成新闻报告的真伪辨别能力,揭示其局限性。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 事实核查 检索增强生成 新闻生成 虚假信息检测
📋 核心要点
- 现有事实核查方法难以有效应用于机器生成内容,特别是本地新闻和动态信息。
- 该研究探索LLM在检索增强生成(RAG)框架下,自我评估生成新闻报告真实性的能力。
- 实验表明LLM更擅长评估静态、国际新闻的真实性,RAG虽能减少无法评估的声明,但也可能引入错误。
📝 摘要(中文)
本文评估了大语言模型(LLM)评估由自身或其他LLM生成的“新闻报道”中声明的真实性的能力。我们的目标是确定LLM是否可以有效地核实自己的内容,使用类似于用于验证人类提出的声明的方法。我们的研究结果表明,LLM在评估国内或国际新闻报道中的声明方面比在评估本地新闻报道中的声明方面更有效,在评估静态信息方面比在评估动态信息方面更好,并且在验证真实声明方面比在验证虚假声明方面更好。我们假设这种差异的出现是因为前一种类型的声明在训练数据中得到了更好的表示。此外,我们发现,在检索增强生成(RAG)设置中加入来自搜索引擎的检索结果可以显著减少LLM无法评估的声明数量。然而,这种方法也增加了不正确评估的发生率,部分原因是检索到的结果不相关或质量低。这项诊断性研究强调,未来对机器生成报告进行事实核查的研究需要优先提高检索信息的准确性和相关性,以更好地支持事实核查工作。此外,关于动态事件和本地新闻的声明可能需要人工参与的事实核查系统,以确保准确性和可靠性。
🔬 方法详解
问题定义:论文旨在解决大语言模型(LLM)生成新闻报道后,如何有效验证这些报道真实性的问题。现有方法主要针对人类生成的内容,缺乏对机器生成内容特点的考虑,尤其是在本地新闻和动态信息方面表现不足。此外,LLM在事实核查时,容易受到训练数据偏差的影响,导致对某些类型声明的评估能力较弱。
核心思路:论文的核心思路是利用LLM自身的能力,结合检索增强生成(RAG)框架,让LLM对自身或其他LLM生成的新闻报道进行事实核查。通过引入外部知识源(搜索引擎),为LLM提供额外的上下文信息,从而提高其评估声明真实性的准确性和覆盖范围。
技术框架:整体框架包含以下几个主要阶段:1) 使用LLM生成新闻报道;2) 从新闻报道中提取需要验证的声明;3) 使用LLM或外部搜索引擎检索与声明相关的证据;4) LLM基于检索到的证据评估声明的真实性。RAG框架的关键在于将检索到的信息融入到LLM的输入中,使其能够更好地理解和评估声明。
关键创新:论文的关键创新在于系统性地评估了LLM在自我事实核查方面的能力,并揭示了其在不同类型新闻报道和声明上的表现差异。此外,论文还探讨了RAG框架在提高LLM事实核查能力方面的作用,并指出了其潜在的局限性,例如引入不相关或低质量的检索结果。
关键设计:论文使用了多种LLM作为生成器和评估器,并采用了标准的RAG流程。在检索阶段,使用了常见的搜索引擎API。评估指标包括准确率、召回率和F1值,用于衡量LLM在事实核查方面的性能。论文还分析了不同类型声明(例如,静态信息与动态信息,本地新闻与国际新闻)对LLM评估结果的影响。
📊 实验亮点
实验结果表明,LLM在评估国内或国际新闻报道中的声明方面比在评估本地新闻报道中的声明方面更有效,在评估静态信息方面比在评估动态信息方面更好,并且在验证真实声明方面比在验证虚假声明方面更好。RAG框架虽然可以减少LLM无法评估的声明数量,但同时也增加了不正确评估的发生率。
🎯 应用场景
该研究成果可应用于自动化新闻审核、虚假信息检测、以及提高AI生成内容的可靠性。通过构建更有效的事实核查系统,可以减少错误信息的传播,提升公众对AI生成内容的信任度。未来可应用于智能客服、内容创作辅助等领域,确保信息的准确性和可靠性。
📄 摘要(原文)
In this paper, we evaluate the ability of Large Language Models (LLMs) to assess the veracity of claims in ''news reports'' generated by themselves or other LLMs. Our goal is to determine whether LLMs can effectively fact-check their own content, using methods similar to those used to verify claims made by humans. Our findings indicate that LLMs are more effective at assessing claims in national or international news stories than in local news stories, better at evaluating static information than dynamic information, and better at verifying true claims compared to false ones. We hypothesize that this disparity arises because the former types of claims are better represented in the training data. Additionally, we find that incorporating retrieved results from a search engine in a Retrieval-Augmented Generation (RAG) setting significantly reduces the number of claims an LLM cannot assess. However, this approach also increases the occurrence of incorrect assessments, partly due to irrelevant or low-quality search results. This diagnostic study highlights the need for future research on fact-checking machine-generated reports to prioritize improving the precision and relevance of retrieved information to better support fact-checking efforts. Furthermore, claims about dynamic events and local news may require human-in-the-loop fact-checking systems to ensure accuracy and reliability.