Evaluating Multimodal Large Language Models on Spoken Sarcasm Understanding

作者: Zhu Li, Xiyuan Gao, Yuqing Zhang, Shekhar Nayak, Matt Coler

分类: cs.CL, cs.MM

发布日期: 2025-09-18

💡 一句话要点

评估多模态大语言模型在口语讽刺理解中的表现

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 讽刺检测 大型语言模型 跨语言理解 音频分析

📋 核心要点

讽刺检测依赖文本、语音、视觉等多模态信息，现有研究主要集中于文本或视觉-文本，缺乏对音频-视觉-文本讽刺的全面理解。
论文探索了大型语言模型（LLM）和多模态LLM在跨语言讽刺检测中的应用，并采用协作门控融合模块整合多模态特征。
实验结果表明，音频模型单模态性能最佳，文本-音频和音频-视觉组合优于其他模态组合，Qwen-Omni等MLLM表现出竞争力的性能。

📝 摘要（中文）

讽刺检测是自然语言理解中的一个挑战，因为讽刺意图通常依赖于跨越文本、语音和视觉的细微跨模态线索。以往的工作主要集中在文本或视觉-文本讽刺上，而对全面的音频-视觉-文本讽刺理解的研究仍然不足。本文系统地评估了大型语言模型（LLM）和多模态LLM在英语（MUStARD++）和中文（MCSD 1.0）讽刺检测中的表现，包括零样本、少样本和LoRA微调设置。除了直接分类，我们还探索了将模型作为特征编码器，并通过协作门控融合模块整合它们的表示。实验结果表明，基于音频的模型实现了最强的单模态性能，而文本-音频和音频-视觉组合优于单模态和三模态模型。此外，像Qwen-Omni这样的MLLM显示出具有竞争力的零样本和微调性能。我们的发现突出了MLLM在跨语言、音频-视觉-文本讽刺理解方面的潜力。

🔬 方法详解

问题定义：论文旨在解决多模态讽刺检测问题，特别是音频、视觉和文本信息融合的挑战。现有方法主要集中在文本或视觉-文本讽刺检测，忽略了音频信息的重要性，并且缺乏对跨语言讽刺的有效处理。

核心思路：论文的核心思路是利用大型语言模型（LLM）和多模态LLM（MLLM）强大的表征学习能力，结合协作门控融合模块，有效地整合来自文本、音频和视觉模态的信息，从而提高讽刺检测的准确性。同时，通过跨语言数据集的实验，验证模型在不同语言环境下的泛化能力。

技术框架：整体框架包括以下几个主要阶段：1) 使用LLM/MLLM作为特征编码器，分别提取文本、音频和视觉模态的特征表示；2) 使用协作门控融合模块，自适应地融合不同模态的特征，突出重要模态的信息，抑制噪声模态的影响；3) 将融合后的特征输入到分类器中，进行讽刺检测。论文还探索了零样本、少样本和LoRA微调等不同的训练策略。

关键创新：论文的关键创新在于：1) 首次系统地评估了MLLM在音频-视觉-文本讽刺检测中的表现；2) 提出了协作门控融合模块，能够更有效地融合多模态信息；3) 探索了跨语言讽刺检测，验证了模型在不同语言环境下的泛化能力。

关键设计：协作门控融合模块的设计是关键。该模块通过学习每个模态的权重，自适应地调整不同模态的贡献。具体来说，该模块使用一个门控机制，根据输入特征动态地生成每个模态的权重。损失函数采用交叉熵损失，优化目标是最小化预测结果与真实标签之间的差异。LoRA微调采用较低的秩来更新模型参数，从而减少计算资源的需求。

📊 实验亮点

实验结果表明，基于音频的模型在单模态讽刺检测中表现最佳，文本-音频和音频-视觉组合优于单模态和三模态模型。Qwen-Omni等MLLM在零样本和微调设置下均表现出具有竞争力的性能，证明了MLLM在跨语言、音频-视觉-文本讽刺理解方面的潜力。

🎯 应用场景

该研究成果可应用于情感分析、舆情监控、智能客服等领域。通过准确识别讽刺言论，可以提升机器理解人类真实意图的能力，从而改进人机交互体验，并为企业提供更精准的市场分析和风险预警。

📄 摘要（原文）

Sarcasm detection remains a challenge in natural language understanding, as sarcastic intent often relies on subtle cross-modal cues spanning text, speech, and vision. While prior work has primarily focused on textual or visual-textual sarcasm, comprehensive audio-visual-textual sarcasm understanding remains underexplored. In this paper, we systematically evaluate large language models (LLMs) and multimodal LLMs for sarcasm detection on English (MUStARD++) and Chinese (MCSD 1.0) in zero-shot, few-shot, and LoRA fine-tuning settings. In addition to direct classification, we explore models as feature encoders, integrating their representations through a collaborative gating fusion module. Experimental results show that audio-based models achieve the strongest unimodal performance, while text-audio and audio-vision combinations outperform unimodal and trimodal models. Furthermore, MLLMs such as Qwen-Omni show competitive zero-shot and fine-tuned performance. Our findings highlight the potential of MLLMs for cross-lingual, audio-visual-textual sarcasm understanding.

Evaluating Multimodal Large Language Models on Spoken Sarcasm Understanding

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册