Fact-checking with Generative AI: A Systematic Cross-Topic Examination of LLMs Capacity to Detect Veracity of Political Information
作者: Elizaveta Kuznetsova, Ilaria Vitulano, Mykola Makhortykh, Martha Stolze, Tomas Nagy, Victoria Vziatysheva
分类: cs.CL, cs.CY
发布日期: 2025-03-11
备注: 15 pages, 2 figures
💡 一句话要点
系统性评估大型语言模型在政治信息核查中的能力与局限性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 事实核查 政治信息 AI审计 主题建模
📋 核心要点
- 现有事实核查方法依赖人工,效率低且易受主观影响,自动化核查面临数据偏差和模型泛化性挑战。
- 利用AI审计方法,系统评估多个LLM在政治信息核查中的表现,分析影响模型性能的关键因素。
- 实验表明,不同LLM性能差异显著,且在敏感话题上识别虚假信息能力更强,但总体性能仍有提升空间。
📝 摘要(中文)
本研究旨在评估大型语言模型(LLMs)在事实核查中的应用,并探讨自动化手段在识别信息真实性方面的潜力。我们采用AI审计方法,系统性地评估了五个LLMs(ChatGPT 4、Llama 3 (70B)、Llama 3.1 (405B)、Claude 3.5 Sonnet和Google Gemini)在处理由专业记者核实的16513条陈述时的表现。具体而言,我们使用主题建模和回归分析来研究哪些因素(如提示的主题或LLM类型)会影响对真、假和混合陈述的评估。结果表明,虽然ChatGPT 4和Google Gemini的准确率高于其他模型,但总体性能仍然一般。值得注意的是,模型在识别虚假陈述方面表现更好,尤其是在COVID-19、美国政治争议和社会问题等敏感话题上,这可能表明存在可以提高这些主题准确性的保护措施。研究结果的主要意义在于,将LLMs用于事实核查面临重大挑战,包括不同LLMs之间性能的显著差异以及特定主题输出质量的不均衡,这可能归因于训练数据的不足。我们的研究强调了LLMs在政治事实核查中的潜力和局限性,并为进一步改进保护措施和微调提供了潜在途径。
🔬 方法详解
问题定义:本研究旨在评估大型语言模型(LLMs)在政治信息事实核查中的能力。现有的人工事实核查方法效率低下且容易受到主观偏见的影响。此外,现有的自动化方法在处理复杂和细微的政治信息时,常常面临数据偏差和模型泛化性不足的挑战。因此,如何利用LLMs有效地进行政治信息的事实核查,并克服现有方法的局限性,是本研究要解决的核心问题。
核心思路:本研究的核心思路是采用AI审计方法,系统性地评估多个主流LLMs在处理政治信息事实核查任务时的表现。通过构建包含大量已由专业记者核实的政治陈述的数据集,并设计合适的提示(prompts),来测试LLMs识别真假信息的能力。同时,利用主题建模和回归分析等方法,深入分析影响LLMs性能的关键因素,例如提示的主题、LLM的类型等。
技术框架:本研究的技术框架主要包括以下几个阶段:1) 数据收集:收集由专业记者核实的16513条政治陈述,构建包含真、假和混合信息的测试数据集。2) 模型选择:选择五个主流的LLMs,包括ChatGPT 4、Llama 3 (70B)、Llama 3.1 (405B)、Claude 3.5 Sonnet和Google Gemini。3) 提示设计:设计合适的提示,引导LLMs对政治陈述进行事实核查。4) 性能评估:评估LLMs在识别真假信息方面的准确率、精确率、召回率等指标。5) 因素分析:利用主题建模和回归分析等方法,分析影响LLMs性能的关键因素。
关键创新:本研究的关键创新在于:1) 系统性地评估了多个主流LLMs在政治信息事实核查任务中的表现,为该领域的研究提供了全面的基准。2) 利用主题建模和回归分析等方法,深入分析了影响LLMs性能的关键因素,为改进LLMs的事实核查能力提供了有价值的 insights。3) 揭示了LLMs在处理不同主题的政治信息时存在的性能差异,为开发针对特定主题的优化策略提供了依据。
关键设计:本研究的关键设计包括:1) 数据集的构建:构建包含大量已由专业记者核实的政治陈述的数据集,确保数据的质量和可靠性。2) 提示的设计:设计清晰明确的提示,避免歧义和误导,确保LLMs能够正确理解任务要求。3) 评估指标的选择:选择合适的评估指标,全面衡量LLMs在识别真假信息方面的性能。4) 因素分析的方法:利用主题建模和回归分析等方法,深入分析影响LLMs性能的关键因素。
📊 实验亮点
实验结果表明,ChatGPT 4和Google Gemini在事实核查任务中表现相对较好,但总体性能仍有提升空间。模型在识别虚假陈述方面表现更佳,尤其是在COVID-19、美国政治争议和社会问题等敏感话题上。不同LLM在处理不同主题的政治信息时,性能存在显著差异,表明需要针对特定主题进行优化。
🎯 应用场景
该研究成果可应用于自动化新闻事实核查系统,辅助记者和编辑快速识别虚假信息,提高新闻报道的准确性和可信度。此外,该研究还可以用于社交媒体平台的内容审核,减少虚假信息传播,维护健康的舆论环境。未来,通过不断改进LLMs的性能和优化事实核查流程,有望构建更加智能和高效的自动化事实核查系统。
📄 摘要(原文)
The purpose of this study is to assess how large language models (LLMs) can be used for fact-checking and contribute to the broader debate on the use of automated means for veracity identification. To achieve this purpose, we use AI auditing methodology that systematically evaluates performance of five LLMs (ChatGPT 4, Llama 3 (70B), Llama 3.1 (405B), Claude 3.5 Sonnet, and Google Gemini) using prompts regarding a large set of statements fact-checked by professional journalists (16,513). Specifically, we use topic modeling and regression analysis to investigate which factors (e.g. topic of the prompt or the LLM type) affect evaluations of true, false, and mixed statements. Our findings reveal that while ChatGPT 4 and Google Gemini achieved higher accuracy than other models, overall performance across models remains modest. Notably, the results indicate that models are better at identifying false statements, especially on sensitive topics such as COVID-19, American political controversies, and social issues, suggesting possible guardrails that may enhance accuracy on these topics. The major implication of our findings is that there are significant challenges for using LLMs for factchecking, including significant variation in performance across different LLMs and unequal quality of outputs for specific topics which can be attributed to deficits of training data. Our research highlights the potential and limitations of LLMs in political fact-checking, suggesting potential avenues for further improvements in guardrails as well as fine-tuning.