Bridging Pixels and Words: Mask-Aware Local Semantic Fusion for Multimodal Media Verification

作者: Zizhao Chen, Ping Wei, Ziyang Ren, Huan Li, Xiangru Yin

分类: cs.CV, cs.AI

发布日期: 2026-03-27

备注: Accepted by CVPR 2026

💡 一句话要点

提出MaLSF框架，通过掩码感知的局部语义融合解决多模态媒体验证难题。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态验证 假新闻检测 跨模态融合 局部语义一致性 掩码感知

📋 核心要点

现有方法在多模态虚假信息检测中，全局对齐易稀释局部语义冲突，导致检测精度下降。
MaLSF框架通过掩码-标签对作为语义锚点，进行主动双向验证，精准定位跨模态冲突。
实验表明，MaLSF在DGM4和多模态假新闻检测任务上取得了SOTA性能，验证了其有效性。

📝 摘要（中文）

随着多模态虚假信息的日益复杂，对其检测和溯源至关重要。然而，当前的多模态验证方法依赖于被动的整体融合，难以应对复杂的虚假信息。由于“特征稀释”，全局对齐倾向于平均掉细微的局部语义不一致性，从而有效地掩盖了它们本应发现的冲突。我们引入了掩码感知的局部语义融合（MaLSF），这是一个新颖的框架，它将范式转变为主动的双向验证，模仿人类的认知交叉引用。MaLSF利用掩码-标签对作为语义锚点来桥接像素和单词。其核心机制包含两个创新：1）双向跨模态验证（BCV）模块，充当审问者，使用并行查询流（文本作为查询和图像作为查询）来明确地查明冲突；2）分层语义聚合（HSA）模块，智能地聚合这些多粒度冲突信号以进行特定于任务的推理。此外，为了提取细粒度的掩码-标签对，我们引入了一组不同的掩码-标签对提取解析器。MaLSF在DGM4和多模态假新闻检测任务上均实现了最先进的性能。广泛的消融研究和可视化结果进一步验证了其有效性和可解释性。

🔬 方法详解

问题定义：论文旨在解决多模态媒体验证中，现有方法难以有效检测和定位复杂虚假信息的问题。现有方法依赖于全局特征融合，容易忽略或平均掉局部语义的不一致性，导致“特征稀释”，从而无法准确识别细微的跨模态冲突。

核心思路：论文的核心思路是模拟人类认知过程中的交叉引用，通过主动的双向验证来显式地寻找跨模态冲突。具体来说，利用掩码-标签对作为语义锚点，将图像中的像素区域与文本中的语义标签关联起来，从而实现细粒度的局部语义一致性检查。

技术框架：MaLSF框架主要包含以下几个模块：1) 掩码-标签对提取模块：用于从图像和文本中提取细粒度的掩码-标签对。2) 双向跨模态验证（BCV）模块：使用文本作为查询和图像作为查询两种方式，进行双向的跨模态验证，以显式地定位冲突。3) 分层语义聚合（HSA）模块：将多粒度的冲突信号进行智能聚合，用于最终的真假判断。

关键创新：MaLSF的关键创新在于其主动的双向验证机制和掩码感知的局部语义融合。与传统的被动全局融合方法不同，MaLSF通过BCV模块主动地寻找跨模态冲突，并通过HSA模块对冲突信号进行分层聚合，从而更准确地识别虚假信息。此外，利用掩码-标签对作为语义锚点，实现了细粒度的局部语义一致性检查，有效避免了特征稀释问题。

关键设计：掩码-标签对提取模块使用了多种解析器，以提取不同类型的掩码-标签对，从而保证了模型的泛化能力。BCV模块使用了并行的查询流（文本作为查询和图像作为查询），以实现双向的跨模态验证。HSA模块使用了多层感知机（MLP）来聚合多粒度的冲突信号。具体的损失函数和网络结构等技术细节在论文中进行了详细描述。

🖼️ 关键图片

📊 实验亮点

MaLSF在DGM4和多模态假新闻检测任务上均取得了state-of-the-art的性能。消融实验验证了BCV和HSA模块的有效性。可视化结果表明，MaLSF能够准确地定位跨模态冲突区域，具有良好的可解释性。相较于现有方法，MaLSF在性能和可解释性方面均有显著提升。

🎯 应用场景

该研究成果可应用于多模态假新闻检测、社交媒体内容审核、版权保护等领域。通过自动检测和定位虚假信息，可以有效遏制谣言传播，维护网络安全，提升信息的可信度。未来，该技术有望与区块链等技术结合，构建更加安全可靠的多模态信息验证系统。

📄 摘要（原文）

As multimodal misinformation becomes more sophisticated, its detection and grounding are crucial. However, current multimodal verification methods, relying on passive holistic fusion, struggle with sophisticated misinformation. Due to 'feature dilution,' global alignments tend to average out subtle local semantic inconsistencies, effectively masking the very conflicts they are designed to find. We introduce MaLSF (Mask-aware Local Semantic Fusion), a novel framework that shifts the paradigm to active, bidirectional verification, mimicking human cognitive cross-referencing. MaLSF utilizes mask-label pairs as semantic anchors to bridge pixels and words. Its core mechanism features two innovations: 1) a Bidirectional Cross-modal Verification (BCV) module that acts as an interrogator, using parallel query streams (Text-as-Query and Image-as-Query) to explicitly pinpoint conflicts; and 2) a Hierarchical Semantic Aggregation (HSA) module that intelligently aggregates these multi-granularity conflict signals for task-specific reasoning. In addition, to extract fine-grained mask-label pairs, we introduce a set of diverse mask-label pair extraction parsers. MaLSF achieves state-of-the-art performance on both the DGM4 and multimodal fake news detection tasks. Extensive ablation studies and visualization results further verify its effectiveness and interpretability.

Bridging Pixels and Words: Mask-Aware Local Semantic Fusion for Multimodal Media Verification

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理