Contrastive Learning to Improve Retrieval for Real-world Fact Checking
作者: Aniruddh Sriram, Fangyuan Xu, Eunsol Choi, Greg Durrett
分类: cs.CL, cs.AI, cs.LG
发布日期: 2024-10-07
备注: EMNLP 2024 FEVER Workshop
💡 一句话要点
提出对比式事实核查重排序器(CFR),提升真实世界事实核查的检索性能
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 事实核查 信息检索 对比学习 知识蒸馏 语义理解
📋 核心要点
- 现有事实核查方法在检索相关证据时存在瓶颈,难以处理需要推理的复杂声明。
- CFR通过对比学习,利用GPT-4蒸馏知识、子问题答案评估和黄金标签等多重信号微调Contriever。
- 实验表明,CFR在AVeriTeC数据集上将事实核查准确率提升6%,并能迁移到其他数据集。
📝 摘要(中文)
本文提出了一种改进的检索器,名为对比式事实核查重排序器(CFR),用于解决事实核查中的证据检索瓶颈问题。该方法利用AVeriTeC数据集,该数据集为声明中的子问题标注了人工撰写的答案,并使用对比学习目标微调Contriever模型。该对比学习目标基于多个训练信号,包括来自GPT-4的知识蒸馏、子问题答案评估以及数据集中的黄金标签。在AVeriTeC数据集上的评估表明,该模型在事实核查准确率方面提高了6%。此外,该模型还展现了良好的泛化能力,可以迁移到FEVER、ClaimDecomp、HotpotQA以及一个需要检索器进行推理的合成数据集。
🔬 方法详解
问题定义:现有事实核查系统依赖于从网络检索到的证据来判断声明的真伪。然而,传统的检索方法通常只能找到与声明直接相关的文档,而对于需要进行推理的复杂声明,则难以检索到相关的证据。例如,关于疫苗开发过程的文档可能与关于疫苗成分的声明相关,即使该文档没有直接提及疫苗成分。因此,如何提高检索器在复杂声明场景下的证据检索能力是一个关键问题。
核心思路:本文的核心思路是利用对比学习来训练一个更好的检索器。通过构建正负样本对,并利用多种训练信号(包括GPT-4的知识蒸馏、子问题答案评估和黄金标签)来指导模型的学习,从而使模型能够更好地理解声明和证据之间的语义关系,并检索到更相关的证据。这种方法的核心在于,它不仅仅依赖于声明和证据之间的字面匹配,而是更加注重语义层面的理解和推理。
技术框架:CFR的整体框架可以分为以下几个步骤:1) 使用Contriever作为基础检索器;2) 构建对比学习的训练数据集,包括正样本(与声明相关的证据)和负样本(与声明不相关的证据);3) 利用多种训练信号(GPT-4蒸馏、子问题答案评估、黄金标签)来计算对比损失;4) 使用对比损失微调Contriever模型。在推理阶段,CFR首先使用微调后的Contriever检索候选证据,然后使用重排序器对候选证据进行排序,最终选择排名最高的证据作为支持或反驳声明的依据。
关键创新:CFR的关键创新在于它利用对比学习和多种训练信号来提高检索器的性能。与传统的检索方法相比,CFR能够更好地理解声明和证据之间的语义关系,并检索到更相关的证据。此外,CFR还利用GPT-4的知识蒸馏来进一步提高模型的性能。这种多重信号的融合是CFR能够取得良好效果的关键。
关键设计:CFR的关键设计包括:1) 使用Contriever作为基础检索器,Contriever是一种预训练的对比学习模型,具有良好的语义表示能力;2) 构建包含多种类型负样本的对比学习数据集,例如,来自同一文档但与声明无关的句子,以及来自其他文档的句子;3) 使用InfoNCE损失函数来训练模型,该损失函数旨在最大化正样本之间的相似度,同时最小化负样本之间的相似度;4) 利用GPT-4生成子问题的答案,并使用这些答案来评估检索到的证据的质量,从而进一步提高模型的性能。
🖼️ 关键图片
📊 实验亮点
实验结果表明,CFR在AVeriTeC数据集上将事实核查准确率提高了6%,显著优于现有的检索方法。此外,CFR还展现了良好的泛化能力,可以迁移到FEVER、ClaimDecomp、HotpotQA等多个数据集,并在这些数据集上取得了显著的性能提升。这些结果表明,CFR是一种有效且通用的证据检索方法。
🎯 应用场景
该研究成果可应用于各种需要从海量信息中检索相关证据的场景,例如:事实核查、问答系统、信息检索等。通过提高证据检索的准确性和效率,可以帮助人们更快地获取所需信息,并做出更明智的决策。未来,该方法还可以扩展到其他领域,例如:法律、医疗等,为这些领域的专业人士提供更强大的信息检索工具。
📄 摘要(原文)
Recent work on fact-checking addresses a realistic setting where models incorporate evidence retrieved from the web to decide the veracity of claims. A bottleneck in this pipeline is in retrieving relevant evidence: traditional methods may surface documents directly related to a claim, but fact-checking complex claims requires more inferences. For instance, a document about how a vaccine was developed is relevant to addressing claims about what it might contain, even if it does not address them directly. We present Contrastive Fact-Checking Reranker (CFR), an improved retriever for this setting. By leveraging the AVeriTeC dataset, which annotates subquestions for claims with human written answers from evidence documents, we fine-tune Contriever with a contrastive objective based on multiple training signals, including distillation from GPT-4, evaluating subquestion answers, and gold labels in the dataset. We evaluate our model on both retrieval and end-to-end veracity judgments about claims. On the AVeriTeC dataset, we find a 6\% improvement in veracity classification accuracy. We also show our gains can be transferred to FEVER, ClaimDecomp, HotpotQA, and a synthetic dataset requiring retrievers to make inferences.