GDCNet: Generative Discrepancy Comparison Network for Multimodal Sarcasm Detection

📄 arXiv: 2601.20618v1 📥 PDF

作者: Shuguang Zhang, Junhong Lian, Guoxin Yu, Baoxun Xu, Xiang Ao

分类: cs.CV, cs.AI, cs.CL

发布日期: 2026-01-28

备注: Accepted to 2026 IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP 2026)


💡 一句话要点

GDCNet:生成式差异比较网络用于多模态讽刺检测

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态讽刺检测 跨模态冲突 大型语言模型 图像描述生成 语义差异 情感分析 门控机制

📋 核心要点

  1. 现有MSD方法在处理视觉和文本关联性弱或语义间接的情况时,难以有效检测跨模态不一致性。
  2. GDCNet利用MLLM生成的图像描述作为语义锚点,计算生成描述与原始文本的语义和情感差异,从而捕捉跨模态冲突。
  3. 实验结果表明,GDCNet在MSD基准测试中表现出色,并在MMSD2.0上取得了新的state-of-the-art。

📝 摘要(中文)

多模态讽刺检测(MSD)旨在通过建模图像-文本对之间的语义不一致性来识别讽刺。现有方法通常利用跨模态嵌入错位来检测不一致性,但在视觉和文本内容关联松散或语义间接时效果不佳。最近的方法利用大型语言模型(LLM)生成讽刺线索,但这些生成内容固有的多样性和主观性常常引入噪声。为了解决这些限制,我们提出了生成式差异比较网络(GDCNet)。该框架利用多模态LLM(MLLM)生成的描述性、基于事实的图像标题作为稳定的语义锚点,从而捕获跨模态冲突。具体来说,GDCNet计算生成的客观描述与原始文本之间的语义和情感差异,同时测量视觉-文本保真度。然后,通过门控模块将这些差异特征与视觉和文本表示融合,以自适应地平衡模态贡献。在MSD基准上的大量实验表明,GDCNet具有卓越的准确性和鲁棒性,并在MMSD2.0基准上建立了新的最先进水平。

🔬 方法详解

问题定义:多模态讽刺检测旨在识别图像-文本对中的讽刺意味。现有方法主要依赖跨模态嵌入的对齐程度来判断一致性,但当图像和文本的关联性较弱或语义较为隐晦时,这些方法难以有效捕捉讽刺信息。此外,利用LLM生成讽刺线索的方法容易引入噪声,影响检测精度。

核心思路:GDCNet的核心在于利用多模态大型语言模型(MLLM)生成图像的客观描述,并将这些描述作为稳定的语义锚点。通过比较生成的客观描述与原始文本之间的语义和情感差异,以及衡量视觉-文本的保真度,从而更准确地捕捉跨模态的冲突,进而判断是否存在讽刺。

技术框架:GDCNet主要包含以下几个模块:1) MLLM图像描述生成模块:使用MLLM生成图像的客观描述。2) 语义和情感差异计算模块:计算生成描述与原始文本之间的语义和情感差异。3) 视觉-文本保真度测量模块:衡量视觉内容与文本描述之间的匹配程度。4) 特征融合模块:使用门控机制融合差异特征、视觉特征和文本特征。

关键创新:GDCNet的关键创新在于使用MLLM生成的客观图像描述作为语义锚点,从而更稳定、更准确地捕捉跨模态冲突。与直接使用LLM生成讽刺线索的方法相比,客观描述更不易引入噪声,从而提高了讽刺检测的准确性和鲁棒性。

关键设计:GDCNet使用预训练的MLLM(例如BLIP-2)生成图像描述。语义差异计算可以使用预训练的语言模型(例如BERT)提取文本的语义向量,然后计算余弦相似度。情感差异计算可以使用情感分析工具包。门控机制用于自适应地调整不同模态特征的权重,损失函数包括交叉熵损失和对比损失等。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

GDCNet在MMSD2.0基准测试上取得了state-of-the-art的结果,显著优于现有的多模态讽刺检测方法。实验结果表明,GDCNet能够有效捕捉跨模态冲突,提高讽刺检测的准确性和鲁棒性。例如,在MMSD2.0数据集上,GDCNet的F1-score相比最佳基线模型提升了超过2个百分点。

🎯 应用场景

GDCNet可应用于社交媒体内容审核、舆情分析、智能客服等领域。通过准确识别多模态内容中的讽刺意味,可以帮助过滤不良信息、理解用户情感倾向、提升人机交互的自然性和准确性。未来,该技术还可扩展到其他多模态理解任务,例如虚假信息检测、情感计算等。

📄 摘要(原文)

Multimodal sarcasm detection (MSD) aims to identify sarcasm within image-text pairs by modeling semantic incongruities across modalities. Existing methods often exploit cross-modal embedding misalignment to detect inconsistency but struggle when visual and textual content are loosely related or semantically indirect. While recent approaches leverage large language models (LLMs) to generate sarcastic cues, the inherent diversity and subjectivity of these generations often introduce noise. To address these limitations, we propose the Generative Discrepancy Comparison Network (GDCNet). This framework captures cross-modal conflicts by utilizing descriptive, factually grounded image captions generated by Multimodal LLMs (MLLMs) as stable semantic anchors. Specifically, GDCNet computes semantic and sentiment discrepancies between the generated objective description and the original text, alongside measuring visual-textual fidelity. These discrepancy features are then fused with visual and textual representations via a gated module to adaptively balance modality contributions. Extensive experiments on MSD benchmarks demonstrate GDCNet's superior accuracy and robustness, establishing a new state-of-the-art on the MMSD2.0 benchmark.