TRUST-VL: An Explainable News Assistant for General Multimodal Misinformation Detection

📄 arXiv: 2509.04448v2 📥 PDF

作者: Zehong Yan, Peng Qi, Wynne Hsu, Mong Li Lee

分类: cs.CV, cs.MM

发布日期: 2025-09-04 (更新: 2025-10-30)

备注: EMNLP 2025 Oral; Project Homepage: https://yanzehong.github.io/trust-vl/


💡 一句话要点

提出TRUST-VL,一个可解释的多模态新闻助手,用于检测通用多模态虚假信息。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态虚假信息检测 视觉语言模型 可解释性 Question-Aware Visual Amplifier 指令学习

📋 核心要点

  1. 现有方法在多模态虚假信息检测中,通常只关注单一类型的扭曲,泛化能力不足。
  2. TRUST-VL通过联合训练不同类型的扭曲数据,并引入Question-Aware Visual Amplifier模块,提升模型泛化能力。
  3. TRUST-VL在多个基准测试中取得了state-of-the-art的性能,并具备良好的可解释性。

📝 摘要(中文)

多模态虚假信息,包括文本、视觉和跨模态扭曲,构成了日益增长的社会威胁,并且被生成式人工智能放大。现有方法通常侧重于单一类型的扭曲,难以泛化到未见过的场景。本文观察到,不同的扭曲类型共享通用的推理能力,同时也需要特定于任务的技能。我们假设跨扭曲类型进行联合训练有助于知识共享,并增强模型泛化能力。为此,我们引入了TRUST-VL,一个统一且可解释的视觉-语言模型,用于通用多模态虚假信息检测。TRUST-VL包含一个新颖的Question-Aware Visual Amplifier模块,旨在提取特定于任务的视觉特征。为了支持训练,我们还构建了TRUST-Instruct,一个包含198K样本的大规模指令数据集,其中包含与人工事实核查工作流程对齐的结构化推理链。在领域内和零样本基准上的大量实验表明,TRUST-VL实现了最先进的性能,同时提供了强大的泛化性和可解释性。

🔬 方法详解

问题定义:论文旨在解决通用多模态虚假信息检测问题。现有方法主要痛点在于:1)专注于单一类型的扭曲,无法处理复杂多样的虚假信息;2)泛化能力差,难以适应未见过的场景;3)缺乏可解释性,难以理解模型的决策过程。

核心思路:论文的核心思路是利用不同类型的虚假信息之间共享的推理能力,通过联合训练提升模型的泛化能力。同时,引入Question-Aware Visual Amplifier模块,提取特定于任务的视觉特征,增强模型对关键信息的关注。此外,构建大规模指令数据集TRUST-Instruct,提供结构化的推理链,提升模型的可解释性。

技术框架:TRUST-VL的整体架构是一个视觉-语言模型,包含以下主要模块:1)文本编码器:用于提取文本特征;2)视觉编码器:用于提取视觉特征;3)Question-Aware Visual Amplifier:根据问题提取任务相关的视觉特征;4)多模态融合模块:融合文本和视觉特征;5)分类器:预测信息真伪。整个流程是:输入文本和图像,经过编码器提取特征,然后通过Question-Aware Visual Amplifier增强视觉特征,进行多模态融合,最后通过分类器判断真伪。

关键创新:论文最重要的技术创新点在于Question-Aware Visual Amplifier模块。该模块能够根据提出的问题,动态地提取与任务相关的视觉特征,从而提高模型对关键信息的关注度,增强模型的泛化能力和可解释性。

关键设计:TRUST-Instruct数据集包含198K样本,每个样本都包含结构化的推理链,模拟人工事实核查工作流程。Question-Aware Visual Amplifier模块的具体实现细节未知,但推测可能使用了注意力机制或类似的技术,根据问题动态调整视觉特征的权重。损失函数未知,但推测可能使用了交叉熵损失函数或类似的分类损失函数。

🖼️ 关键图片

img_0

📊 实验亮点

TRUST-VL在领域内和零样本基准测试中均取得了state-of-the-art的性能。具体性能数据未知,但论文强调了其在泛化性和可解释性方面的优势。与现有方法相比,TRUST-VL能够更好地处理复杂多样的虚假信息,并提供更清晰的决策依据。

🎯 应用场景

该研究成果可应用于新闻媒体、社交平台等领域,用于自动检测和识别多模态虚假信息,帮助用户过滤不实信息,提高信息的可信度。未来,该技术可以进一步扩展到其他领域,例如医疗、金融等,用于识别欺诈行为和虚假宣传。

📄 摘要(原文)

Multimodal misinformation, encompassing textual, visual, and cross-modal distortions, poses an increasing societal threat that is amplified by generative AI. Existing methods typically focus on a single type of distortion and struggle to generalize to unseen scenarios. In this work, we observe that different distortion types share common reasoning capabilities while also requiring task-specific skills. We hypothesize that joint training across distortion types facilitates knowledge sharing and enhances the model's ability to generalize. To this end, we introduce TRUST-VL, a unified and explainable vision-language model for general multimodal misinformation detection. TRUST-VL incorporates a novel Question-Aware Visual Amplifier module, designed to extract task-specific visual features. To support training, we also construct TRUST-Instruct, a large-scale instruction dataset containing 198K samples featuring structured reasoning chains aligned with human fact-checking workflows. Extensive experiments on both in-domain and zero-shot benchmarks demonstrate that TRUST-VL achieves state-of-the-art performance, while also offering strong generalization and interpretability.