TRUST-VL: An Explainable News Assistant for General Multimodal Misinformation Detection

作者: Zehong Yan, Peng Qi, Wynne Hsu, Mong Li Lee

分类: cs.CV, cs.MM

发布日期: 2025-09-04 (更新: 2025-10-30)

备注: EMNLP 2025 Oral; Project Homepage: https://yanzehong.github.io/trust-vl/

💡 一句话要点

提出TRUST-VL，一个可解释的多模态新闻助手，用于检测通用多模态虚假信息。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态虚假信息检测 视觉语言模型 可解释性 Question-Aware Visual Amplifier 指令学习

📋 核心要点

现有方法在多模态虚假信息检测中，通常只关注单一类型的扭曲，泛化能力不足。
TRUST-VL通过联合训练不同类型的扭曲数据，并引入Question-Aware Visual Amplifier模块，提升模型泛化能力。
TRUST-VL在多个基准测试中取得了state-of-the-art的性能，并具备良好的可解释性。

📝 摘要（中文）

多模态虚假信息，包括文本、视觉和跨模态扭曲，构成了日益增长的社会威胁，并且被生成式人工智能放大。现有方法通常侧重于单一类型的扭曲，难以泛化到未见过的场景。本文观察到，不同的扭曲类型共享通用的推理能力，同时也需要特定于任务的技能。我们假设跨扭曲类型进行联合训练有助于知识共享，并增强模型泛化能力。为此，我们引入了TRUST-VL，一个统一且可解释的视觉-语言模型，用于通用多模态虚假信息检测。TRUST-VL包含一个新颖的Question-Aware Visual Amplifier模块，旨在提取特定于任务的视觉特征。为了支持训练，我们还构建了TRUST-Instruct，一个包含198K样本的大规模指令数据集，其中包含与人工事实核查工作流程对齐的结构化推理链。在领域内和零样本基准上的大量实验表明，TRUST-VL实现了最先进的性能，同时提供了强大的泛化性和可解释性。

🔬 方法详解

问题定义：论文旨在解决通用多模态虚假信息检测问题。现有方法主要痛点在于：1）专注于单一类型的扭曲，无法处理复杂多样的虚假信息；2）泛化能力差，难以适应未见过的场景；3）缺乏可解释性，难以理解模型的决策过程。

核心思路：论文的核心思路是利用不同类型的虚假信息之间共享的推理能力，通过联合训练提升模型的泛化能力。同时，引入Question-Aware Visual Amplifier模块，提取特定于任务的视觉特征，增强模型对关键信息的关注。此外，构建大规模指令数据集TRUST-Instruct，提供结构化的推理链，提升模型的可解释性。

技术框架：TRUST-VL的整体架构是一个视觉-语言模型，包含以下主要模块：1）文本编码器：用于提取文本特征；2）视觉编码器：用于提取视觉特征；3）Question-Aware Visual Amplifier：根据问题提取任务相关的视觉特征；4）多模态融合模块：融合文本和视觉特征；5）分类器：预测信息真伪。整个流程是：输入文本和图像，经过编码器提取特征，然后通过Question-Aware Visual Amplifier增强视觉特征，进行多模态融合，最后通过分类器判断真伪。

关键创新：论文最重要的技术创新点在于Question-Aware Visual Amplifier模块。该模块能够根据提出的问题，动态地提取与任务相关的视觉特征，从而提高模型对关键信息的关注度，增强模型的泛化能力和可解释性。

关键设计：TRUST-Instruct数据集包含198K样本，每个样本都包含结构化的推理链，模拟人工事实核查工作流程。Question-Aware Visual Amplifier模块的具体实现细节未知，但推测可能使用了注意力机制或类似的技术，根据问题动态调整视觉特征的权重。损失函数未知，但推测可能使用了交叉熵损失函数或类似的分类损失函数。

🖼️ 关键图片

📊 实验亮点

TRUST-VL在领域内和零样本基准测试中均取得了state-of-the-art的性能。具体性能数据未知，但论文强调了其在泛化性和可解释性方面的优势。与现有方法相比，TRUST-VL能够更好地处理复杂多样的虚假信息，并提供更清晰的决策依据。

🎯 应用场景

该研究成果可应用于新闻媒体、社交平台等领域，用于自动检测和识别多模态虚假信息，帮助用户过滤不实信息，提高信息的可信度。未来，该技术可以进一步扩展到其他领域，例如医疗、金融等，用于识别欺诈行为和虚假宣传。

📄 摘要（原文）

Multimodal misinformation, encompassing textual, visual, and cross-modal distortions, poses an increasing societal threat that is amplified by generative AI. Existing methods typically focus on a single type of distortion and struggle to generalize to unseen scenarios. In this work, we observe that different distortion types share common reasoning capabilities while also requiring task-specific skills. We hypothesize that joint training across distortion types facilitates knowledge sharing and enhances the model's ability to generalize. To this end, we introduce TRUST-VL, a unified and explainable vision-language model for general multimodal misinformation detection. TRUST-VL incorporates a novel Question-Aware Visual Amplifier module, designed to extract task-specific visual features. To support training, we also construct TRUST-Instruct, a large-scale instruction dataset containing 198K samples featuring structured reasoning chains aligned with human fact-checking workflows. Extensive experiments on both in-domain and zero-shot benchmarks demonstrate that TRUST-VL achieves state-of-the-art performance, while also offering strong generalization and interpretability.

TRUST-VL: An Explainable News Assistant for General Multimodal Misinformation Detection

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理