DEFAME: Dynamic Evidence-based FAct-checking with Multimodal Experts
作者: Tobias Braun, Mark Rothermel, Marcus Rohrbach, Anna Rohrbach
分类: cs.CV, cs.CL
发布日期: 2024-12-13 (更新: 2025-07-24)
备注: ICML 2025 version. 9 pages main paper, 35 pages with appendix, 18 figures and 7 tables. Corrected two inconsistent numbers in Table 2
💡 一句话要点
DEFAME:提出基于动态证据和多模态专家的事实核查框架,显著提升文本图像混合场景下的核查性能。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 事实核查 多模态学习 大型语言模型 证据检索 可解释性 零样本学习 动态证据选择
📋 核心要点
- 现有事实核查方法通常仅依赖文本信息,忽略了图像等多模态证据,且可解释性不足,难以应对复杂场景。
- DEFAME框架通过动态选择工具和搜索深度,提取并评估文本和视觉证据,生成结构化的多模态报告,实现端到端验证。
- 实验结果表明,DEFAME在多个基准测试中超越了现有方法,并在新提出的ClaimReview2024+基准上显著优于GPT-4o,展现了良好的泛化能力。
📝 摘要(中文)
针对虚假信息泛滥的问题,本文提出了一种可靠且可扩展的事实核查解决方案:基于动态证据和多模态专家的事实核查框架(DEFAME)。DEFAME是一个模块化的、零样本的多模态大语言模型(MLLM)流水线,用于开放域的文本-图像声明验证。DEFAME通过六个阶段动态地选择工具和搜索深度,以提取和评估文本和视觉证据。与以往仅使用文本、缺乏可解释性或仅依赖参数知识的方法不同,DEFAME执行端到端的验证,考虑了声明和证据中的图像,并生成结构化的多模态报告。在VERITE、AVeriTeC和MOCHEG等流行基准上的评估表明,DEFAME超越了所有先前的方法,成为单模态和多模态事实核查领域新的最先进系统。此外,我们引入了一个新的多模态基准ClaimReview2024+,其中包含GPT-4o知识截止日期之后的声明,避免了数据泄露。在此基准上,DEFAME显著优于GPT-4o基线,显示出时间泛化能力和实时事实核查的潜力。
🔬 方法详解
问题定义:当前的事实核查系统在处理包含图像等多模态信息的声明时存在局限性。许多系统仅依赖文本信息,忽略了图像提供的关键证据。此外,现有方法通常缺乏可解释性,难以追踪事实核查的依据。同时,由于知识截止日期的问题,现有模型难以验证最新的声明,存在数据泄露的风险。
核心思路:DEFAME的核心思路是构建一个模块化的、基于多模态证据的动态事实核查流水线。通过动态选择合适的工具和搜索深度,系统能够有效地提取和评估文本和视觉证据,从而更准确地验证声明的真实性。这种动态性和多模态性使得DEFAME能够更好地应对复杂的事实核查场景。
技术框架:DEFAME框架包含六个主要阶段:1) 声明分析:分析声明的类型和关键信息。2) 证据检索:根据声明检索相关的文本和图像证据。3) 证据评估:评估检索到的证据与声明的相关性和可靠性。4) 多模态融合:将文本和图像证据进行融合,形成综合的证据表示。5) 事实核查:基于融合后的证据,判断声明的真实性。6) 报告生成:生成结构化的多模态报告,解释事实核查的依据。
关键创新:DEFAME的关键创新在于其动态证据选择机制和多模态融合能力。动态证据选择机制允许系统根据声明的特点,自适应地选择合适的工具和搜索深度,从而提高证据检索的效率和准确性。多模态融合能力使得系统能够有效地整合文本和图像证据,从而更全面地评估声明的真实性。此外,DEFAME还引入了新的多模态基准ClaimReview2024+,避免了数据泄露问题。
关键设计:DEFAME使用大型语言模型(LLM)作为核心推理引擎,并结合了多种外部工具,如搜索引擎、图像识别API等。在多模态融合阶段,DEFAME采用了注意力机制,以更好地捕捉文本和图像证据之间的关联性。为了保证系统的可解释性,DEFAME在报告生成阶段会详细记录每个阶段的决策过程和依据。
🖼️ 关键图片
📊 实验亮点
DEFAME在VERITE、AVeriTeC和MOCHEG等基准测试中均取得了领先的性能,超越了所有先前的单模态和多模态事实核查方法。特别是在新提出的ClaimReview2024+基准上,DEFAME显著优于GPT-4o基线,表明其具有更强的泛化能力和实时事实核查潜力。这些实验结果充分证明了DEFAME的有效性和优越性。
🎯 应用场景
DEFAME具有广泛的应用前景,可用于新闻媒体的事实核查、社交媒体的内容审核、以及在线教育资源的质量评估。该系统能够帮助用户识别虚假信息,提高信息的可信度,并促进更健康的网络生态环境。未来,DEFAME可以进一步扩展到其他领域,如医疗诊断和金融风险评估等。
📄 摘要(原文)
The proliferation of disinformation demands reliable and scalable fact-checking solutions. We present Dynamic Evidence-based FAct-checking with Multimodal Experts (DEFAME), a modular, zero-shot MLLM pipeline for open-domain, text-image claim verification. DEFAME operates in a six-stage process, dynamically selecting the tools and search depth to extract and evaluate textual and visual evidence. Unlike prior approaches that are text-only, lack explainability, or rely solely on parametric knowledge, DEFAME performs end-to-end verification, accounting for images in claims and evidence while generating structured, multimodal reports. Evaluation on the popular benchmarks VERITE, AVerITeC, and MOCHEG shows that DEFAME surpasses all previous methods, establishing itself as the new state-of-the-art fact-checking system for uni- and multimodal fact-checking. Moreover, we introduce a new multimodal benchmark, ClaimReview2024+, featuring claims after the knowledge cutoff of GPT-4o, avoiding data leakage. Here, DEFAME drastically outperforms the GPT-4o baselines, showing temporal generalizability and the potential for real-time fact-checking.