Is a Picture Worth a Thousand Words? Adaptive Multimodal Fact-Checking with Visual Evidence Necessity

📄 arXiv: 2604.04692 📥 PDF

作者: Jaeyoon Jung, Yejun Yoon, Kunwoo Park

分类: cs.CL, cs.AI, cs.CV

发布日期: 2026-04-07


💡 一句话要点

提出AMuFC框架,自适应判断视觉证据必要性,提升多模态事实核查准确率

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态事实核查 视觉证据必要性 自适应学习 信息验证 自然语言处理

📋 核心要点

  1. 现有方法在多模态事实核查中普遍假设视觉证据总能提升性能,忽略了其可能带来的负面影响。
  2. AMuFC框架通过引入分析器来判断视觉证据的必要性,指导验证器自适应地利用视觉信息。
  3. 实验表明,AMuFC框架在多个数据集上显著提升了事实核查的准确率,验证了其有效性。

📝 摘要(中文)

自动事实核查不仅在新闻领域,而且在网络平台中都至关重要,它支持负责任的信息生态系统并减轻错误信息的危害。虽然最近的研究已经从纯文本事实核查发展到多模态事实核查,但一个普遍的假设是,纳入视觉证据可以普遍提高性能。本文挑战了这一假设,并表明不加区分地使用多模态证据会降低准确性。为了解决这个挑战,我们提出了AMuFC,一个多模态事实核查框架,它采用两个具有不同角色的协作代理,用于自适应地使用视觉证据:一个分析器确定视觉证据对于声明验证是否必要,一个验证器根据检索到的证据和分析器的评估来预测声明的真实性。在三个数据集上的实验结果表明,将分析器对视觉证据必要性的评估纳入验证器的预测中,可以显著提高验证性能。除了所有代码之外,我们还发布了WebFC,这是一个新构建的数据集,用于在更真实的场景中评估事实核查模块。

🔬 方法详解

问题定义:现有的多模态事实核查方法通常默认视觉证据总是有助于提高核查的准确性,而忽略了视觉证据可能与文本信息无关,甚至产生误导的情况。这种不加区分地使用视觉信息可能会降低事实核查的性能。因此,需要一种方法来判断视觉证据对于特定声明的核查是否必要,并根据判断结果自适应地利用视觉信息。

核心思路:论文的核心思路是引入一个“分析器”来评估视觉证据对于验证给定声明的必要性。分析器通过学习判断视觉证据是否能提供额外的信息来支持或反驳声明。验证器则根据分析器的评估结果,决定是否以及如何利用视觉证据进行事实核查。这种自适应的方法可以避免不相关或误导性的视觉信息对核查结果产生负面影响。

技术框架:AMuFC框架包含两个主要模块:分析器(Analyzer)和验证器(Verifier)。分析器接收声明和相关的视觉证据作为输入,输出一个表示视觉证据必要性的概率值。验证器接收声明、检索到的证据(文本和视觉)以及分析器的输出作为输入,最终预测声明的真实性。这两个模块协同工作,分析器指导验证器如何利用视觉证据。

关键创新:该论文的关键创新在于提出了自适应地利用视觉证据的思想,并设计了相应的AMuFC框架来实现这一思想。与以往盲目融合文本和视觉信息的方法不同,AMuFC框架能够根据具体情况判断视觉证据的价值,从而更有效地进行事实核查。

关键设计:分析器可以使用各种分类模型,例如基于Transformer的模型,来预测视觉证据的必要性。验证器可以使用多模态融合技术,例如注意力机制,将文本证据、视觉证据和分析器的输出进行融合,从而做出最终的预测。损失函数可以包括用于训练分析器的分类损失和用于训练验证器的交叉熵损失。具体参数设置和网络结构的选择可以根据具体数据集和任务进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,AMuFC框架在三个数据集上都取得了显著的性能提升。例如,在WebFC数据集上,AMuFC框架相比于基线模型取得了超过3%的准确率提升。这表明自适应地利用视觉证据可以有效地提高多模态事实核查的性能。

🎯 应用场景

该研究成果可应用于各种在线平台,例如社交媒体、新闻网站和搜索引擎,以自动检测和过滤虚假信息。通过提高事实核查的准确性,可以帮助用户更好地识别和避免受到错误信息的误导,从而维护一个更健康的信息生态系统。未来,该技术还可以扩展到其他多模态任务,例如视频内容分析和图像欺骗检测。

📄 摘要(原文)

Automated fact-checking is a crucial task not only in journalism but also across web platforms, where it supports a responsible information ecosystem and mitigates the harms of misinformation. While recent research has progressed from text-only to multimodal fact-checking, a prevailing assumption is that incorporating visual evidence universally improves performance. In this work, we challenge this assumption and show that indiscriminate use of multimodal evidence can reduce accuracy. To address this challenge, we propose AMuFC, a multimodal fact-checking framework that employs two collaborative agents with distinct roles for the adaptive use of visual evidence: An Analyzer determines whether visual evidence is necessary for claim verification, and a Verifier predicts claim veracity conditioned on both the retrieved evidence and the Analyzer's assessment. Experimental results on three datasets show that incorporating the Analyzer's assessment of visual evidence necessity into the Verifier's prediction yields substantial improvements in verification performance. In addition to all code, we release WebFC, a newly constructed dataset for evaluating fact-checking modules in a more realistic scenario, available atthis https URL.