Tell Me Why: Explainable Public Health Fact-Checking with Large Language Models
作者: Majid Zarharan, Pascal Wullschleger, Babak Behkam Kia, Mohammad Taher Pilehvar, Jennifer Foster
分类: cs.CL
发布日期: 2024-05-15
DOI: 10.18653/v1/2024.trustnlp-1.21
💡 一句话要点
利用大型语言模型进行可解释的公共卫生事实核查研究
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 事实核查 大型语言模型 可解释性 公共卫生 零样本学习
📋 核心要点
- 现有事实核查方法缺乏透明性和可解释性,难以让用户理解判断依据,尤其是在公共卫生领域。
- 论文探索利用大型语言模型,通过生成解释来增强事实核查的可解释性,并评估模型在预测和解释方面的联合表现。
- 实验表明,在少样本和参数高效微调下,开源模型能够与GPT-4竞争,甚至超越,但人工评估揭示了黄金解释的潜在问题。
📝 摘要(中文)
本文通过一系列实验,全面分析了可解释的事实核查,重点关注大型语言模型验证公共卫生声明并为其真实性评估提供解释或理由的能力。我们考察了各种开放和闭源模型在零/少样本提示和参数高效微调方面的有效性,检验了它们在孤立和联合的真实性预测和解释生成任务中的表现。重要的是,我们采用了一种双重评估方法,包括先前建立的自动指标和通过人工评估得出的一组新标准。我们的自动评估表明,在零样本场景中,GPT-4表现突出,但在少样本和参数高效微调环境中,开源模型展示了它们弥合性能差距的能力,在某些情况下甚至超过GPT-4。人工评估揭示了更多的细微差别,并表明黄金解释可能存在问题。
🔬 方法详解
问题定义:论文旨在解决公共卫生领域的事实核查问题,并提升其可解释性。现有方法通常只给出真假判断,缺乏解释,用户难以理解判断依据,信任度不高。因此,需要模型不仅能判断事实真伪,还能给出合理的解释。
核心思路:论文的核心思路是利用大型语言模型(LLM)的生成能力,让模型在进行事实核查的同时,生成对判断结果的解释。通过提供解释,增强事实核查结果的可信度和透明度,使用户更容易理解和接受。
技术框架:整体框架包含两个主要任务:真实性预测和解释生成。研究人员探索了不同的LLM(包括GPT-4和各种开源模型),并采用了零样本、少样本提示和参数高效微调等方法。模型首先接收公共卫生声明作为输入,然后输出真实性判断和相应的解释。评估阶段采用自动指标和人工评估相结合的方式,全面评估模型的性能。
关键创新:论文的关键创新在于将解释生成与事实核查任务相结合,并对不同规模和类型的LLM在这一联合任务上的表现进行了深入分析。此外,论文还提出了通过人工评估来验证模型生成的解释质量的方法,弥补了自动评估的不足。
关键设计:论文探索了零样本、少样本提示和参数高效微调等不同的训练策略。参数高效微调允许在资源有限的情况下,对大型模型进行针对特定任务的优化。此外,论文还设计了人工评估流程,通过人工评估来判断模型生成的解释是否合理、准确和有帮助。具体的参数设置、损失函数和网络结构等技术细节在论文中未详细说明,属于模型本身的固有属性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在零样本场景下,GPT-4表现最佳。但在少样本和参数高效微调的场景下,开源模型能够缩小与GPT-4的差距,甚至在某些情况下超越GPT-4。人工评估揭示了黄金解释可能存在问题,表明自动评估指标可能无法完全反映解释的质量。
🎯 应用场景
该研究成果可应用于公共卫生信息平台,帮助用户识别虚假或不准确的健康信息,提高公众对健康信息的辨别能力。此外,该方法还可以推广到其他领域的事实核查,例如新闻、金融等,提升信息的可信度和透明度,减少虚假信息带来的负面影响。
📄 摘要(原文)
This paper presents a comprehensive analysis of explainable fact-checking through a series of experiments, focusing on the ability of large language models to verify public health claims and provide explanations or justifications for their veracity assessments. We examine the effectiveness of zero/few-shot prompting and parameter-efficient fine-tuning across various open and closed-source models, examining their performance in both isolated and joint tasks of veracity prediction and explanation generation. Importantly, we employ a dual evaluation approach comprising previously established automatic metrics and a novel set of criteria through human evaluation. Our automatic evaluation indicates that, within the zero-shot scenario, GPT-4 emerges as the standout performer, but in few-shot and parameter-efficient fine-tuning contexts, open-source models demonstrate their capacity to not only bridge the performance gap but, in some instances, surpass GPT-4. Human evaluation reveals yet more nuance as well as indicating potential problems with the gold explanations.