MGHFT: Multi-Granularity Hierarchical Fusion Transformer for Cross-Modal Sticker Emotion Recognition
作者: Jian Chen, Yuxuan Hu, Haifeng Lu, Wei Wang, Min Yang, Chengming Li, Xiping Hu
分类: cs.CV, cs.AI
发布日期: 2025-07-25
备注: Accepted by ACMMM2025
🔗 代码/项目: GITHUB
💡 一句话要点
提出多粒度层级融合Transformer(MGHFT)用于跨模态表情包情感识别
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 跨模态融合 表情包情感识别 多粒度学习 层级融合 Transformer 多模态大语言模型
📋 核心要点
- 现有方法难以有效利用表情包的多视角信息,如背景知识和风格线索,导致情感理解面临挑战。
- 提出MGHFT模型,利用多模态大语言模型生成文本描述,并分层融合文本和视觉特征,提升情感识别能力。
- 实验结果表明,MGHFT在表情包情感识别任务上显著优于现有方法,F1值提升5.4%,准确率提升4.0%。
📝 摘要(中文)
本文提出了一种新颖的多粒度层级融合Transformer(MGHFT),它基于多模态大型语言模型构建了一个多视角表情包解释器,旨在解决表情包情感理解中对多视角信息(如背景知识和风格线索)的依赖问题。受人类从多角度解读表情包情感能力的启发,我们首先利用多模态大型语言模型,通过提供丰富的文本上下文来解释表情包。然后,我们设计了一种层级融合策略,将文本上下文融入视觉理解中,该策略建立在金字塔视觉Transformer之上,以提取多阶段的全局和局部表情包特征。通过对比学习和注意力机制,文本特征被注入到视觉主干网络的不同阶段,从而增强了全局和局部粒度视觉语义与文本指导的融合。最后,我们引入了一种文本引导的融合注意力机制,以有效地整合整体多模态特征,从而增强语义理解。在两个公共表情包情感数据集上的大量实验表明,MGHFT显著优于现有的表情包情感识别方法,实现了更高的准确率和更细粒度的情感识别。与最佳的预训练视觉模型相比,我们的MGHFT也获得了明显的改进,F1提高了5.4%,准确率提高了4.0%。代码已发布在https://github.com/cccccj-03/MGHFT_ACMMM2025。
🔬 方法详解
问题定义:表情包情感识别旨在理解表情包所表达的情感。现有方法通常难以充分利用表情包中蕴含的多视角信息,例如背景知识、风格线索以及文本上下文,导致情感识别的准确性和细粒度不足。预训练视觉模型在视觉特征提取方面表现出色,但直接应用于表情包情感理解效果有限。
核心思路:本文的核心思路是模拟人类理解表情包情感的方式,即结合视觉信息和文本上下文进行综合判断。通过利用多模态大型语言模型生成对表情包的文本描述,从而为视觉理解提供丰富的背景知识和语义信息。然后,通过层级融合策略,将文本特征融入到视觉特征提取的不同阶段,增强视觉语义的理解。
技术框架:MGHFT模型主要包含三个模块:多视角表情包解释器、层级融合模块和文本引导的融合注意力机制。首先,多视角表情包解释器利用多模态大型语言模型生成表情包的文本描述。然后,层级融合模块基于金字塔视觉Transformer提取多阶段的视觉特征,并将文本特征注入到视觉主干网络的不同阶段。最后,文本引导的融合注意力机制整合多模态特征,进行情感分类。
关键创新:MGHFT的关键创新在于多粒度层级融合策略。通过在视觉特征提取的不同阶段注入文本特征,实现了全局和局部粒度的视觉语义与文本指导的有效融合。此外,文本引导的融合注意力机制能够自适应地调整不同模态特征的权重,进一步提升了情感识别的准确性。
关键设计:层级融合模块采用金字塔视觉Transformer作为视觉主干网络,提取多尺度的视觉特征。对比学习用于优化文本和视觉特征的表示,使得相似的表情包和文本描述在特征空间中更加接近。文本引导的融合注意力机制采用Transformer结构,通过计算文本特征和视觉特征之间的注意力权重,实现多模态特征的有效融合。
🖼️ 关键图片
📊 实验亮点
MGHFT在两个公共表情包情感数据集上取得了显著的性能提升。与现有方法相比,MGHFT在F1值上提高了5.4%,准确率提高了4.0%。实验结果表明,MGHFT能够更准确地识别表情包所表达的情感,并实现更细粒度的情感分类。消融实验验证了各个模块的有效性。
🎯 应用场景
该研究成果可应用于社交媒体情感分析、智能客服、个性化推荐等领域。通过准确识别表情包所表达的情感,可以提升用户体验,改善人机交互,并为内容审核和舆情监控提供技术支持。未来,该方法有望扩展到更广泛的多模态情感分析任务中。
📄 摘要(原文)
Although pre-trained visual models with text have demonstrated strong capabilities in visual feature extraction, sticker emotion understanding remains challenging due to its reliance on multi-view information, such as background knowledge and stylistic cues. To address this, we propose a novel multi-granularity hierarchical fusion transformer (MGHFT), with a multi-view sticker interpreter based on Multimodal Large Language Models. Specifically, inspired by the human ability to interpret sticker emotions from multiple views, we first use Multimodal Large Language Models to interpret stickers by providing rich textual context via multi-view descriptions. Then, we design a hierarchical fusion strategy to fuse the textual context into visual understanding, which builds upon a pyramid visual transformer to extract both global and local sticker features at multiple stages. Through contrastive learning and attention mechanisms, textual features are injected at different stages of the visual backbone, enhancing the fusion of global- and local-granularity visual semantics with textual guidance. Finally, we introduce a text-guided fusion attention mechanism to effectively integrate the overall multimodal features, enhancing semantic understanding. Extensive experiments on 2 public sticker emotion datasets demonstrate that MGHFT significantly outperforms existing sticker emotion recognition approaches, achieving higher accuracy and more fine-grained emotion recognition. Compared to the best pre-trained visual models, our MGHFT also obtains an obvious improvement, 5.4% on F1 and 4.0% on accuracy. The code is released at https://github.com/cccccj-03/MGHFT_ACMMM2025.