PC-MNet: Dual-Level Congruity Modeling for Multimodal Sarcasm Detection via Polarity-Modulated Attention

📄 arXiv: 2605.02447v1 📥 PDF

作者: Maoheng Li, Ling Zhou, Xiaohua Huang, Rubing Huang, Wenming Zheng, Guoying Zhao

分类: cs.CL, cs.AI

发布日期: 2026-05-04


💡 一句话要点

PC-MNet:通过极性调制注意力进行双层一致性建模,用于多模态讽刺检测。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态讽刺检测 一致性建模 极性调制注意力 对比学习 上下文图

📋 核心要点

  1. 现有方法在多模态讽刺检测中依赖朴素的相似性注意力机制和统一的后期融合,忽略了模态间复杂的不一致性关系。
  2. 论文提出一种双层一致性建模网络PC-MNet,通过标量一致性路由和上下文图,选择性融合多粒度证据,捕捉语用不一致性。
  3. 在MUStARD数据集上的实验表明,PC-MNet在Macro-F1指标上超越了现有最佳模型3.14%,验证了其有效性。

📝 摘要(中文)

多模态讽刺检测旨在精确识别字面文本和非语言线索之间的语用不一致性,已在多模态理解中获得广泛关注。最近的进展主要依赖于朴素的基于相似性的注意力机制和统一的后期融合策略。鉴于功能纠缠限制了传统的后期融合,本文引入了一种标量一致性路由机制和一个先验引导的上下文图。该机制通过由不一致性感知对比学习驱动的两阶段非对称优化来锚定广义的不一致性流形,有选择地融合最具区分性的多粒度证据。在MUStARD基准及其伪相关缓解的平衡数据集上的大量实验表明,本文的方法实现了新的最先进的性能,在Macro-F1指标上超过了最强的多模态基线3.14%。通过在架构上隔离原子、组合和上下文冲突,这项工作为建模人类交流中微妙的语用不一致性提供了一个鲁棒的、解耦的范例。

🔬 方法详解

问题定义:多模态讽刺检测旨在识别文本和非语言线索之间的语用不一致性。现有方法主要依赖于简单的相似性注意力和统一的后期融合,无法有效建模模态间的复杂关系,并且容易受到伪相关性的影响。传统的后期融合方法由于功能纠缠,限制了模型性能的进一步提升。

核心思路:论文的核心思路是通过双层一致性建模,显式地捕捉和利用模态间的不一致性信息。具体来说,通过标量一致性路由机制选择性地融合多粒度特征,并利用先验引导的上下文图来建模模态间的关系,从而更准确地识别讽刺。这种设计旨在解耦原子、组合和上下文冲突,提供一个更鲁棒的建模范例。

技术框架:PC-MNet的整体架构包含以下几个主要模块:1) 特征提取模块,用于提取文本和视觉模态的特征;2) 标量一致性路由模块,用于选择性地融合多粒度特征;3) 先验引导的上下文图模块,用于建模模态间的关系;4) 不一致性感知对比学习模块,用于优化模型,使其更好地捕捉不一致性信息;5) 分类模块,用于最终的讽刺检测。

关键创新:论文的关键创新在于提出了双层一致性建模方法,包括标量一致性路由机制和先验引导的上下文图。标量一致性路由机制能够根据特征的一致性程度,自适应地选择融合哪些特征,避免了简单融合带来的噪声。先验引导的上下文图能够利用先验知识,更好地建模模态间的关系,从而更准确地识别讽刺。此外,不一致性感知对比学习进一步增强了模型捕捉不一致性的能力。

关键设计:在标量一致性路由模块中,使用可学习的标量权重来控制不同粒度特征的融合程度。在先验引导的上下文图模块中,使用预训练的知识图谱来提供先验知识。在不一致性感知对比学习中,设计了专门的损失函数,鼓励模型区分一致性和不一致性的样本。具体而言,采用了两阶段非对称优化策略,通过不一致性感知对比学习驱动,从而锚定广义的不一致性流形。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,PC-MNet在MUStARD基准数据集上取得了显著的性能提升,Macro-F1指标达到了新的state-of-the-art,超越了最强的多模态基线3.14%。此外,在伪相关缓解的平衡数据集上,PC-MNet也表现出优越的性能,验证了其鲁棒性和泛化能力。这些结果表明,PC-MNet能够有效地建模多模态讽刺检测中的复杂关系。

🎯 应用场景

该研究成果可应用于情感分析、人机交互、舆情监控等领域。通过准确识别讽刺,可以提升情感分析的准确性,改善人机交互的自然性,并更有效地进行舆情监控和分析。未来,该技术有望应用于更广泛的自然语言处理任务中,例如对话系统和机器翻译。

📄 摘要(原文)

Multimodal sarcasm detection, which aims to precisely identify pragmatic incongruities between literal text and nonverbal cues, has gained substantial attention in multimodal understanding. Recent advancements have predominantly relied on naïve similarity-based attention mechanisms and uniform late fusion strategies.Furthermore, given that functional entanglement restricts traditional late fusions, we incorporate a scalar congruity routing mechanism and a prior-guided contextual graph. This mechanism anchors a generalized incongruity manifold through a two-stage asymmetric optimization driven by inconsistency-aware contrastive learning, selectively fusing only the most discriminative multi-granularity evidence. Extensive experiments on the \texttt{MUStARD} benchmark and its spurious-correlation-mitigated balanced datasets demonstrate that our approach achieves new state-of-the-art performance, surpassing the strongest multimodal baseline by a substantial 3.14\% improvement in Macro-F1. By architecturally isolating atomic, composition, and contextual conflicts. This work provides a robust, decoupled paradigm for modeling subtle pragmatic incongruities in human communication.