MetaSumPerceiver: Multimodal Multi-Document Evidence Summarization for Fact-Checking

📄 arXiv: 2407.13089v2 📥 PDF

作者: Ting-Chih Chen, Chia-Wei Tang, Chris Thomas

分类: cs.AI, cs.CL

发布日期: 2024-07-18 (更新: 2024-09-20)

备注: 16 pages, 7 figures, The 62nd Annual Meeting of the Association for Computational Linguistics


💡 一句话要点

提出MetaSumPerceiver模型,用于多模态多文档证据总结,辅助事实核查。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 事实核查 多模态融合 多文档摘要 Perceiver 强化学习 证据总结 自然语言处理

📋 核心要点

  1. 现有事实核查方法处理多模态多文档数据时效率低下,需要人工耗费大量时间审查。
  2. 提出基于动态感知器的MetaSumPerceiver模型,能够处理任意长度的多模态输入,生成用于事实核查的摘要。
  3. 实验表明,该模型在MOCHEG数据集上超越SOTA方法4.6%,并在新数据集上表现出强大的性能。

📝 摘要(中文)

本文提出了一种用于事实核查的总结模型,该模型旨在从多模态、多文档数据集中生成特定于声明的摘要,以评估声明的真实性。现实世界中的事实核查通常需要审查多个多模态文档,这是一项非常费力且耗时的任务。该模型接收文档、图像和声明作为输入,目标是辅助事实核查任务。我们引入了一种基于动态感知器的模型,该模型可以处理来自任意长度的多种模态的输入。为了训练我们的模型,我们利用了一种新颖的基于强化学习的蕴含目标,以生成提供证据来区分不同真实性标签的摘要。为了评估我们方法的有效性,我们在现有基准和一个我们贡献的新的多文档声明数据集上进行了实验。我们的方法在MOCHEG数据集上的声明验证任务中优于SOTA方法4.6%,并在我们新的Multi-News-Fact-Checking数据集上表现出强大的性能。

🔬 方法详解

问题定义:论文旨在解决事实核查中,需要人工审查大量多模态文档以验证声明真实性的问题。现有方法难以有效整合多模态信息,且缺乏针对特定声明的证据总结能力,导致效率低下。

核心思路:论文的核心思路是利用Perceiver架构的强大模态融合能力,将文档、图像和声明等多模态信息统一处理。通过动态感知器机制,模型能够灵活处理不同长度的输入,并生成针对特定声明的证据摘要,从而辅助事实核查。

技术框架:MetaSumPerceiver模型接收文档、图像和声明作为输入。首先,使用预训练模型(如BERT、ResNet)提取各模态的特征。然后,这些特征被输入到动态感知器模块中进行融合。动态感知器模块通过迭代的注意力机制,将所有输入信息压缩成一个小的潜在向量,该向量包含了所有模态的关键信息。最后,解码器利用该潜在向量生成针对特定声明的摘要。

关键创新:该论文的关键创新在于:1) 提出了基于动态感知器的多模态融合方法,能够有效处理任意长度的多模态输入;2) 引入了基于强化学习的蕴含目标,鼓励模型生成能够区分不同真实性标签的证据摘要。

关键设计:动态感知器模块使用迭代的注意力机制,通过查询向量与输入向量之间的交互,逐步提取关键信息。强化学习的奖励函数基于生成摘要与声明之间的蕴含关系,鼓励模型生成支持或反驳声明的证据。具体而言,奖励函数可以设计为基于预训练的蕴含模型(如RoBERTa-MNLI)的输出概率。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MetaSumPerceiver模型在MOCHEG数据集上的声明验证任务中,相比SOTA方法取得了4.6%的性能提升。此外,该模型在作者贡献的新数据集Multi-News-Fact-Checking上表现出强大的性能,证明了其在多模态多文档事实核查任务中的有效性。

🎯 应用场景

该研究成果可应用于自动化事实核查系统,辅助新闻媒体、社交平台等识别虚假信息,提升信息传播的可靠性。此外,该模型也可扩展到其他需要多模态信息融合和证据总结的领域,如医学诊断、法律咨询等。

📄 摘要(原文)

Fact-checking real-world claims often requires reviewing multiple multimodal documents to assess a claim's truthfulness, which is a highly laborious and time-consuming task. In this paper, we present a summarization model designed to generate claim-specific summaries useful for fact-checking from multimodal, multi-document datasets. The model takes inputs in the form of documents, images, and a claim, with the objective of assisting in fact-checking tasks. We introduce a dynamic perceiver-based model that can handle inputs from multiple modalities of arbitrary lengths. To train our model, we leverage a novel reinforcement learning-based entailment objective to generate summaries that provide evidence distinguishing between different truthfulness labels. To assess the efficacy of our approach, we conduct experiments on both an existing benchmark and a new dataset of multi-document claims that we contribute. Our approach outperforms the SOTA approach by 4.6% in the claim verification task on the MOCHEG dataset and demonstrates strong performance on our new Multi-News-Fact-Checking dataset.