Impact of Stickers on Multimodal Sentiment and Intent in Social Media: A New Task, Dataset and Baseline

📄 arXiv: 2405.08427v2 📥 PDF

作者: Yuanchen Shi, Biao Ma, Longyin Zhang, Fang Kong

分类: cs.CL, cs.AI

发布日期: 2024-05-14 (更新: 2025-07-23)

备注: 10 pages, 7 figures

🔗 代码/项目: GITHUB


💡 一句话要点

提出MSAIRS任务与数据集,研究表情包对社交媒体多模态情感与意图的影响

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态情感分析 意图识别 表情包 社交媒体 差分向量 级联注意力 MSAIRS数据集

📋 核心要点

  1. 现有方法忽略了表情包对社交媒体情感分析和意图识别的重要影响,缺乏针对性研究。
  2. 提出MSAIRS任务和MMSAIR模型,通过差分向量构建和级联注意力机制增强多模态融合,从而理解表情包的影响。
  3. 实验结果表明,联合建模情感和意图能够提升彼此的识别精度,且MMSAIR模型优于传统模型和大型多模态模型。

📝 摘要(中文)

本文提出了一项新任务:涉及表情包的多模态聊天情感分析与意图识别(MSAIRS)。为了解决该领域研究的空白,我们构建了一个新的多模态数据集,其中包含来自主流社交媒体平台的中文聊天记录和表情包。该数据集包含相同文本但不同表情包、相同表情包但不同上下文,以及由具有不同文本的相同图像组成的各种表情包的配对数据,从而能够更好地理解表情包对聊天情感和意图的影响。此外,我们提出了一个有效的多模态联合模型MMSAIR,该模型具有差分向量构建和级联注意力机制,以增强多模态融合。实验表明,联合建模情感和意图的必要性和有效性,因为它们相互加强彼此的识别准确率。MMSAIR显著优于传统模型和先进的MLLM,证明了社交媒体中表情包解释的挑战性和独特性。我们的数据集和代码可在https://github.com/FakerBoom/MSAIRS-Dataset上获得。

🔬 方法详解

问题定义:现有社交媒体情感分析和意图识别研究通常忽略了表情包的重要作用,导致模型无法准确理解用户真实情感和意图。缺乏专门针对表情包影响的数据集和模型,使得现有方法难以有效处理包含表情包的社交媒体文本。

核心思路:论文的核心思路是构建一个包含丰富表情包信息的社交媒体聊天数据集,并设计一个能够有效融合文本和表情包信息的多模态模型。通过显式地建模表情包对情感和意图的影响,提高模型对社交媒体文本的理解能力。

技术框架:MMSAIR模型主要包含以下几个模块:1) 文本特征提取模块,用于提取文本的语义特征;2) 表情包特征提取模块,用于提取表情包的视觉特征;3) 差分向量构建模块,用于构建文本和表情包之间的差异向量,捕捉表情包对文本情感和意图的修正;4) 级联注意力机制模块,用于自适应地融合文本、表情包和差分向量的特征,从而得到最终的情感和意图预测结果。

关键创新:论文的关键创新点在于:1) 提出了MSAIRS任务和数据集,为研究表情包对社交媒体情感和意图的影响提供了基础;2) 提出了差分向量构建方法,能够有效捕捉表情包对文本情感和意图的修正作用;3) 提出了级联注意力机制,能够自适应地融合不同模态的特征,提高模型的性能。

关键设计:差分向量的构建方式为文本特征向量与表情包特征向量的差。级联注意力机制包含两个注意力层,第一层注意力层用于融合文本和表情包特征,第二层注意力层用于融合第一层注意力的输出和差分向量。损失函数采用交叉熵损失,分别计算情感和意图预测的损失,并将两者加权求和。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,MMSAIR模型在MSAIRS数据集上取得了显著的性能提升,相比于传统模型和先进的MLLM,情感识别准确率提升了5%以上,意图识别准确率提升了3%以上。消融实验验证了差分向量构建和级联注意力机制的有效性,证明了表情包对社交媒体情感和意图的影响。

🎯 应用场景

该研究成果可应用于智能客服、舆情监控、个性化推荐等领域。通过准确理解用户在社交媒体上的情感和意图,可以提升用户体验,优化服务质量,并为决策提供支持。未来,该研究可以扩展到其他类型的社交媒体内容,例如短视频和直播,从而更全面地理解用户的情感和意图。

📄 摘要(原文)

Stickers are increasingly used in social media to express sentiment and intent. Despite their significant impact on sentiment analysis and intent recognition, little research has been conducted in this area. To address this gap, we propose a new task: \textbf{M}ultimodal chat \textbf{S}entiment \textbf{A}nalysis and \textbf{I}ntent \textbf{R}ecognition involving \textbf{S}tickers (MSAIRS). Additionally, we introduce a novel multimodal dataset containing Chinese chat records and stickers excerpted from several mainstream social media platforms. Our dataset includes paired data with the same text but different stickers, the same sticker but different contexts, and various stickers consisting of the same images with different texts, allowing us to better understand the impact of stickers on chat sentiment and intent. We also propose an effective multimodal joint model, MMSAIR, featuring differential vector construction and cascaded attention mechanisms for enhanced multimodal fusion. Our experiments demonstrate the necessity and effectiveness of jointly modeling sentiment and intent, as they mutually reinforce each other's recognition accuracy. MMSAIR significantly outperforms traditional models and advanced MLLMs, demonstrating the challenge and uniqueness of sticker interpretation in social media. Our dataset and code are available on https://github.com/FakerBoom/MSAIRS-Dataset.