Evaluating Multimodal Large Language Models on Spoken Sarcasm Understanding

作者: Zhu Li, Xiyuan Gao, Yuqing Zhang, Shekhar Nayak, Matt Coler

分类: cs.CL, cs.MM

发布日期: 2025-09-18

💡 一句话要点

评估多模态大语言模型在口语讽刺理解中的表现

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 讽刺检测 大型语言模型 音频分析 跨语言理解

📋 核心要点

现有讽刺检测方法在捕捉文本、语音和视觉等多模态线索方面存在不足，尤其是在音频信息的利用上。
论文提出利用大型语言模型和多模态大型语言模型，结合协作门控融合模块，提升讽刺检测的准确性。
实验结果表明，音频模态在单模态讽刺检测中表现最佳，多模态融合模型优于单模态模型，Qwen-Omni等MLLM表现出竞争力。

📝 摘要（中文）

讽刺检测是自然语言理解中的一个挑战，因为讽刺意图通常依赖于跨越文本、语音和视觉的微妙跨模态线索。以往的工作主要集中在文本或视觉-文本讽刺上，而对全面的音频-视觉-文本讽刺理解的研究仍然不足。本文系统地评估了大型语言模型（LLM）和多模态LLM在英语（MUStARD++）和中文（MCSD 1.0）讽刺检测中的表现，包括零样本、少样本和LoRA微调设置。除了直接分类，我们还探索了将模型作为特征编码器，并通过协作门控融合模块整合它们的表示。实验结果表明，基于音频的模型实现了最强的单模态性能，而文本-音频和音频-视觉组合优于单模态和三模态模型。此外，Qwen-Omni等MLLM表现出具有竞争力的零样本和微调性能。我们的研究结果突出了MLLM在跨语言、音频-视觉-文本讽刺理解方面的潜力。

🔬 方法详解

问题定义：论文旨在解决多模态讽刺检测问题，特别是如何有效融合文本、语音和视觉信息来提升讽刺识别的准确率。现有方法主要集中在文本或视觉-文本模态，忽略了音频信息的重要性，并且缺乏对跨语言讽刺的深入研究。

核心思路：论文的核心思路是利用大型语言模型（LLM）和多模态大型语言模型（MLLM）强大的表征学习能力，将不同模态的信息编码成统一的向量空间，并通过协作门控融合模块动态地调整不同模态的权重，从而实现更有效的多模态融合。

技术框架：整体框架包括以下几个主要步骤：1) 使用预训练的LLM或MLLM（如Qwen-Omni）对文本、音频和视觉信息进行编码，提取特征表示。2) 使用协作门控融合模块，根据输入数据的特点动态地调整不同模态的权重，实现自适应的模态融合。3) 将融合后的特征输入到分类器中，预测讽刺的概率。论文还探索了零样本、少样本和LoRA微调等不同的训练策略。

关键创新：论文的关键创新在于：1) 系统地评估了LLM和MLLM在多模态讽刺检测中的性能，特别是在音频模态的利用上。2) 提出了协作门控融合模块，能够动态地调整不同模态的权重，实现更有效的多模态融合。3) 进行了跨语言讽刺检测的实验，验证了MLLM在跨语言场景下的泛化能力。

关键设计：协作门控融合模块的设计是关键。该模块使用一个门控机制，根据输入数据的特点动态地调整不同模态的权重。具体来说，该模块首先计算每个模态的注意力权重，然后使用这些权重对模态特征进行加权求和，得到融合后的特征表示。损失函数采用交叉熵损失函数，用于优化分类器的参数。

🖼️ 关键图片

📊 实验亮点

实验结果表明，基于音频的模型在单模态讽刺检测中表现最佳，文本-音频和音频-视觉组合优于单模态和三模态模型。Qwen-Omni等MLLM在零样本和微调设置下表现出具有竞争力的性能，证明了MLLM在跨语言、音频-视觉-文本讽刺理解方面的潜力。

🎯 应用场景

该研究成果可应用于情感分析、舆情监控、智能客服等领域。通过准确识别讽刺言论，可以提升机器理解人类情感的能力，从而改进人机交互体验，并为企业提供更精准的市场分析和风险预警。

📄 摘要（原文）

Sarcasm detection remains a challenge in natural language understanding, as sarcastic intent often relies on subtle cross-modal cues spanning text, speech, and vision. While prior work has primarily focused on textual or visual-textual sarcasm, comprehensive audio-visual-textual sarcasm understanding remains underexplored. In this paper, we systematically evaluate large language models (LLMs) and multimodal LLMs for sarcasm detection on English (MUStARD++) and Chinese (MCSD 1.0) in zero-shot, few-shot, and LoRA fine-tuning settings. In addition to direct classification, we explore models as feature encoders, integrating their representations through a collaborative gating fusion module. Experimental results show that audio-based models achieve the strongest unimodal performance, while text-audio and audio-vision combinations outperform unimodal and trimodal models. Furthermore, MLLMs such as Qwen-Omni show competitive zero-shot and fine-tuned performance. Our findings highlight the potential of MLLMs for cross-lingual, audio-visual-textual sarcasm understanding.

Evaluating Multimodal Large Language Models on Spoken Sarcasm Understanding

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理