Zero-shot and Few-shot Learning with Instruction-following LLMs for Claim Matching in Automated Fact-checking

📄 arXiv: 2501.10860v2 📥 PDF

作者: Dina Pisarevskaya, Arkaitz Zubiaga

分类: cs.CL, cs.AI

发布日期: 2025-01-18 (更新: 2025-02-28)

备注: Published at the 31st International Conference on Computational Linguistics (COLING 2025). Compared to the conference version of the paper, the dataset link is added here & 2 minor typos fixed

期刊: Proceedings of the 31st International Conference on Computational Linguistics, 2025, pages 9721-9736, Abu Dhabi, UAE


💡 一句话要点

利用指令跟随LLM进行零样本和少样本学习,解决自动化事实核查中的声明匹配问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 声明匹配 自动化事实核查 大型语言模型 零样本学习 少样本学习 指令跟随 自然语言推理 提示工程

📋 核心要点

  1. 现有声明匹配方法缺乏灵活性,难以适应新领域和数据,需要人工标注大量数据。
  2. 利用指令跟随LLM的零样本和少样本学习能力,通过设计合适的提示模板,将声明匹配任务转化为相似任务。
  3. 实验表明,该方法在声明匹配任务上表现良好,证明了LLM在自动化事实核查中的潜力。

📝 摘要(中文)

本文首次探索了零样本和少样本学习方法在声明匹配(CM)任务中的应用,该任务通过将可以使用相同事实核查解决的声明放在一起来促进自动化事实核查流程。我们将CM视为二元分类任务,并使用一系列指令跟随大型语言模型(GPT-3.5-turbo、Gemini-1.5-flash、Mistral-7B-Instruct和Llama-3-8B-Instruct)进行实验,同时研究了提示模板。我们引入了一个新的CM数据集ClaimMatch,该数据集将在接收后发布。我们测试了LLM在CM任务中的性能,发现可以通过利用更成熟但相似的任务(如自然语言推理或释义检测)来解决该问题。我们还提出了一个CM流水线,并在不同长度的文本上对其进行了评估。

🔬 方法详解

问题定义:论文旨在解决自动化事实核查流程中的声明匹配(Claim Matching, CM)问题。现有方法通常需要大量标注数据进行训练,泛化能力较弱,难以适应新的领域和数据分布。因此,如何在零样本或少样本的情况下,有效地进行声明匹配是一个挑战。

核心思路:论文的核心思路是将声明匹配任务转化为一个二元分类问题,并利用大型语言模型(LLMs)的指令跟随能力,通过设计合适的提示(Prompt)模板,将CM任务转化为LLMs擅长的自然语言推理(NLI)或释义检测等任务。这样,即使在没有或只有少量标注数据的情况下,LLMs也能有效地完成声明匹配任务。

技术框架:论文提出的CM流水线包含以下主要步骤:1) 输入两个待匹配的声明;2) 使用预定义的提示模板,将两个声明转化为LLM可以理解的指令;3) LLM根据指令,判断两个声明是否匹配;4) 输出匹配结果(二元分类:匹配/不匹配)。论文主要关注提示模板的设计和不同LLM在CM任务上的性能评估。

关键创新:论文的关键创新在于:1) 首次探索了利用指令跟随LLMs进行零样本和少样本声明匹配;2) 提出了将CM任务转化为NLI或释义检测等相似任务的思路,并设计了相应的提示模板;3) 构建了一个新的声明匹配数据集ClaimMatch,用于评估不同方法的性能。

关键设计:论文实验中使用了多种指令跟随LLMs,包括GPT-3.5-turbo、Gemini-1.5-flash、Mistral-7B-Instruct和Llama-3-8B-Instruct。针对不同的LLM,论文设计了不同的提示模板,例如,将CM任务转化为判断两个声明是否互为释义的任务。论文没有涉及特别复杂的网络结构或损失函数设计,而是侧重于如何有效地利用LLMs的预训练知识和指令跟随能力来解决CM问题。

📊 实验亮点

论文通过实验验证了指令跟随LLM在零样本和少样本声明匹配任务上的有效性。实验结果表明,通过设计合适的提示模板,LLM可以有效地完成CM任务,并且在某些情况下可以达到与监督学习方法相当的性能。此外,论文还发现,将CM任务转化为NLI或释义检测等相似任务可以提高LLM的性能。

🎯 应用场景

该研究成果可应用于自动化事实核查系统,提高事实核查的效率和准确性。通过自动匹配相似的声明,可以减少人工审核的工作量,加速虚假信息的识别和纠正。此外,该方法还可以应用于信息检索、文本聚类等领域,提高信息处理的智能化水平。

📄 摘要(原文)

The claim matching (CM) task can benefit an automated fact-checking pipeline by putting together claims that can be resolved with the same fact-check. In this work, we are the first to explore zero-shot and few-shot learning approaches to the task. We consider CM as a binary classification task and experiment with a set of instruction-following large language models (GPT-3.5-turbo, Gemini-1.5-flash, Mistral-7B-Instruct, and Llama-3-8B-Instruct), investigating prompt templates. We introduce a new CM dataset, ClaimMatch, which will be released upon acceptance. We put LLMs to the test in the CM task and find that it can be tackled by leveraging more mature yet similar tasks such as natural language inference or paraphrase detection. We also propose a pipeline for CM, which we evaluate on texts of different lengths.